Show simple item record

dc.contributor.authorPereira, Gean Trindade
dc.date.accessioned2019-02-14T18:40:05Z
dc.date.available2019-02-14T18:40:05Z
dc.date.issued2018-11-09
dc.identifier.citationPEREIRA, Gean Trindade. Algoritmos genéticos multiobjetivo para classificação hierárquica de elementos transponíveis. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2018. Disponível em: https://repositorio.ufscar.br/handle/ufscar/10977.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/10977
dc.description.abstractIn Machine Learning (ML), commonly a classification problem consists of associating an instance to only one class within an usually small number of classes. However, there are more complex problems involving dozens and even hundreds of classes arranged in a hierarchical structure, which are known in the literature as Hierarchical Classification (HC) problems. In these problems, an instance is assigned not only to one class but also to its superclasses, and two approaches called Global and Local are often used in HC. In the Local Approach, multiple classifiers are trained using local information from classes, while in the Global Approach a single classifier is induced to deal with the entire class hierarchy, which makes it more interpretable. One of the fields of greatest application of HC is Bioinformatics, where tools that explore hierarchical relationships in data and/or made use of ML are still scarce. In addition, an issue that is important for both Bioinformatics and HC fields, and which is not always given due attention, is the interpretability of the models. In the context of Bioinformatics, a topic that is gaining attention is the study and classification of Transposable Elements (TEs), which are DNA fragments capable of moving inside the genome of their hosts. According to recent research, TEs are responsible for mutations in several organisms, including the human genome, which guaranteed them the nickname of great responsible for the genetic variability of species. In this work, three global methods based on Genetic Algorithms that evolve classification rules applied to HC of TEs were proposed and investigated, and in two of them, Multi-Objective Approaches were implemented in order to better deal with the predictive performance and interpretability objectives. The first one is a traditional optimization method called Hierarchical Classification with a Genetic Algorithm (HC-GA), which was used as the basis for the development of the others. The second method is called Hierarchical Classification with a Weighted Genetic Algorithm (HC-WGA), and implements the Weighted Sum Approach. The third method is called Hierarchical Classification with a Lexicographic Genetic Algorithm (HC-LGA), which follows the Lexicographic Approach. Experiments with the TEs class taxonomy developed by Wicker et al. (2007), have shown that the proposed methods have achieved better or competitive results with the state-of-the-art HC methods from the literature, with the advantage of generating interpretable rule models. When compared to the popular global method Clus-HMC, the proposed methods presented better predictive performance in addition to producing less rules with a fewer tests. In the comparisons with the homology tools BLASTn and RepeatMasker, the hierarchical methods achieved superior results in both datasets and were able to classify all the instances, different from what occurred in those tools. Moreover, it was verified that the two multi-objective methods not only obtained the best results for the two datasets used but they also surpassed the simple optimization method with statistical significance.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rights.uriAcesso abertopor
dc.subjectAprendizado de máquinapor
dc.subjectClassificação hierárquicapor
dc.subjectAlgoritmos genéticospor
dc.subjectOtimização multiobjetivopor
dc.subjectElementos transponíveispor
dc.subjectMachine learningeng
dc.subjectHierarchical classificationeng
dc.subjectGenetic algorithmseng
dc.subjectMulti-objective optimizationeng
dc.subjectTransposable elementseng
dc.titleAlgoritmos genéticos multiobjetivo para classificação hierárquica de elementos transponíveispor
dc.typeDissertaçãopor
dc.contributor.advisor1Cerri, Ricardo
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6266519868438512por
dc.description.resumoEm Aprendizado de Máquina (no inglês, Machine Learning (ML)), comumente um problema de classificação consiste em associar uma instância a apenas uma classe dentre um número normalmente pequeno de classes. Entretanto, existem problemas mais complexos que envolvem dezenas e até centenas de classes arranjadas numa estrutura hierárquica, sendo conhecidos na literatura como problemas de Classificação Hierárquica (no inglês, Hierarchical Classification (HC)). Nesses, uma instância é assinalada não só a uma classe, mas também as suas superclasses, e duas abordagens chamadas Global e Local são frequentemente utilizadas para tratá-los. Na Abordagem Local, múltiplos classificadores são treinados usando informações locais das classes, enquanto que na Abordagem Global um único classificador é induzido para lidar com toda a hierarquia de classes, o que a torna mais interpretável. Uma das áreas de maior aplicação da HC é a Bioinformática, onde ferramentas que exploram as relações hierárquicas nos dados e/ou que fazem uso de ML ainda são escassas. Além disso, uma questão importante em ambos os domínios e que ainda não recebe a devida atenção, é a interpretabilidade dos modelos. No contexto da Bioinformática, um tema que vem ganhando relevância é o estudo e classificação dos Elementos Transponíveis (no inglês, Transposable Elements (TEs)), fragmentos de DNA que se movem dentro do genoma de seus hospedeiros. Segundo pesquisas recentes, os TEs são responsáveis por mutações em diversos organismos, inclusive no genoma humano, o que lhes garantiu a alcunha de grandes responsáveis pela variabilidade genética das espécies. Nesse trabalho são propostos e investigados três métodos globais baseados em Algoritmos Genéticos que evoluem regras de classificação aplicadas a HC de TEs, sendo que em dois deles foram implementadas Abordagens Multiobjetivo com o intuito de lidar melhor com os objetivos de desempenho preditivo e interpretabilidade. O primeiro trata-se de um método de otimização simples chamado Hierarchical Classification with a Genetic Algorithm (HC-GA), o qual serviu de base para o desenvolvimento dos demais. O segundo método é denominado Hierarchical Classification with a Weighted Genetic Algorithm (HC-WGA), e implementa a Abordagem de Soma Ponderada. O terceiro método é chamado Hierarchical Classification with a Lexicographic Genetic Algorithm (HC-LGA), e segue a Abordagem Lexicográfica. Experimentos com a taxonomia de classes de TEs desenvolvida por Wicker et al. (2007), mostraram que os métodos propostos atingiram resultados superiores ou competitivos com os métodos de HC estado-da-arte da literatura, com a vantagem de que induzem modelos interpretáveis de regras. Quando comparados ao popular método global Clus-HMC, os métodos propostos apresentaram melhor desempenho além de produzirem regras menores e em menor quantidade. Nas comparações comas ferramentas de homologia BLASTn e RepeatMasker, os métodos hierárquicos alcançaram resultados superiores em ambos os conjuntos de dados e foram capazes de classificar todas as instâncias, diferente do que ocorreu nessas ferramentas. Ademais, foi verificado que os dois métodos multiobjetivo não só geraram os melhores resultados para os dois conjuntos de dados como também superaram com significância estatística o método de otimização simples.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCCpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpor
dc.description.sponsorshipIdCAPES: Código de Financiamento 001por
dc.ufscar.embargoOnlinepor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/3765060702388111por


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record