Show simple item record

dc.contributor.authorAlves, Juliana Ferreira
dc.date.accessioned2024-02-23T13:22:58Z
dc.date.available2024-02-23T13:22:58Z
dc.date.issued2024-02-01
dc.identifier.citationALVES, Juliana Ferreira. Aplicação de Técnicas de Aprendizado de Máquina na Identificação de Marcadores Genéticos para a Doença de Alzheimer. 2024. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19436.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/19436
dc.description.abstractSingle nucleotide polymorphism (SNP) is the variation at a single position in the nucleotide chain where DNA is formed. Since it is a genetic alteration, it is of utmost importance for the study of human health. Through it, it is possible to predict individuals' responses to certain medications, search for genes related to hereditary diseases in a family group, and it can also be associated with more complex diseases such as cardiovascular diseases, diabetes, cancer, and Alzheimer's Disease. With the use of supervised Machine Learning, it is possible to conduct studies on the relationship between SNPs and complex diseases, with each SNP being an input variable for such algorithms. Thus, the aim of this project was to investigate the relationship between SNPs and Alzheimer's Disease, through Machine Learning algorithms. For this purpose, datasets of individuals and their respective SNPs and diagnoses (Normal, Mild Cognitive Impairment, or Alzheimer's Disease) were used. Therefore, this study presents an innovative approach to identifying genetic markers associated with Alzheimer's Disease (AD), combining machine learning techniques and genomic analysis into a set of four crucial steps. The first step consists of data preprocessing and normalization, followed by the implementation of Genome-Wide Association Studies (GWAS) on all datasets generated in the previous phase. The third step employs advanced machine learning methods on the most promising dataset identified in the previous steps. Finally, the fourth step involves a comparative analysis of the results achieved in the GWAS and machine learning stages. The results of this study revealed a comprehensive set of SNPs associated with AD, including both those previously known in the scientific literature and promising new discoveries. Furthermore, the importance of data handling in quality control was highlighted, which had a significant impact on the results obtained. The machine learning models used in this study showed distinct profiles of the most significant SNPs, emphasizing the complexity and heterogeneity of AD. This variation in coefficients and feature importances underscores the need for an integrated and multifaceted approach to AD genetics research. In summary, this study demonstrates the potential of machine learning and genomic analysis in advancing knowledge about AD. The results provide new insights into the emerging field of AD genomics, opening up new perspectives for more effective therapeutic and diagnostic strategies. The findings presented represent a significant advancement towards a deeper understanding of AD genetics and its impact on human health.eng
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectDoença de Alzheimerpor
dc.subjectAprendizado de máquina supervisionadopor
dc.subjectClassificaçãopor
dc.subjectSeleção de atributospor
dc.titleAplicação de Técnicas de Aprendizado de Máquina na Identificação de Marcadores Genéticos para a Doença de Alzheimerpor
dc.title.alternativeApplication of Machine Learning Techniques in the Identification of Genetic Markers for Alzheimer's Diseaseeng
dc.typeTCCpor
dc.contributor.advisor1Cerri, Ricardo
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6266519868438512por
dc.description.resumoO polimorfismo de nucleotídeo único (SNP) é a variação em uma única posição na cadeia de nucleotídeos onde é formado o DNA. Visto que se trata de uma alteração genética, ele é de extrema importância para o estudo da saúde humana. Através dele, é possível prever as respostas de indivíduos a determinados medicamentos, buscar genes relacionados a doenças hereditárias em um grupo familiar e também pode ser associado a doenças mais complexas como doenças cardiovasculares, diabetes, câncer e a Doença de Alzheimer. Com a utilização de Aprendizado de Máquina supervisionado, é possível realizar estudos da relação dos SNPs com doenças complexas, sendo cada SNP uma variável de entrada para tais algoritmos. Desta forma, o objetivo deste projeto foi investigar a relação dos SNPs com a Doença de Alzheimer, através de algoritmos de Aprendizado de Máquina. Para isso, foram utilizados conjuntos de dados de indivíduos e seus respectivos SNPs e diagnósticos (Normal, Comprometimento Cognitivo Leve ou Doença de Alzheimer). Assim, este estudo apresenta uma abordagem inovadora para a identificação de marcadores genéticos associados à Doença de Alzheimer (DA), unindo técnicas de aprendizado de máquina e análise genômica em um conjunto de quatro etapas cruciais. A primeira etapa consiste no pré-processamento e normalização dos dados, seguida pela implementação de estudos de associação genômica ampla (GWAS) em todos os conjuntos de dados gerados na fase anterior. A terceira etapa emprega métodos avançados de aprendizado de máquina no conjunto de dados mais promissor identificado nas etapas anteriores. Finalmente, a quarta etapa envolve uma análise comparativa dos resultados alcançados nas etapas de GWAS e aprendizado de máquina. Os resultados deste estudo revelaram um conjunto abrangente de SNPs associados à DA, incluindo tanto aqueles previamente conhecidos na literatura científica quanto novas descobertas promissoras. Além disso, destacou-se a importância do tratamento de dados no controle de qualidade, o que teve um impacto significativo nos resultados encontrados. Os modelos de Aprendizado de Máquina utilizados neste estudo mostraram perfis distintos de SNPs mais significativos, enfatizando a complexidade e a heterogeneidade da DA. Essa variação nos coeficientes e importâncias das características sublinha a necessidade de uma abordagem integrada e multifacetada para a pesquisa em genética da DA. Em resumo, este estudo demonstra o potencial do aprendizado de máquina e da análise genômica no avanço do conhecimento sobre a DA. Os resultados fornecem novas percepções para o campo emergente da genômica da DA, abrindo novas perspectivas para estratégias terapêuticas e diagnósticas mais eficazes. As descobertas apresentadas representam um avanço significativo em direção a um entendimento mais profundo da genética da DA e seu impacto na saúde humana.por
dc.publisher.initialsUFSCarpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpor
dc.description.sponsorshipIdProcesso nº 2020/08634-2, Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/0104274733044968por
dc.publisher.courseEngenharia de Computação - ECpor
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-2582-1695por


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil