dc.contributor.author | Funicheli, Breno Osvaldo | |
dc.date.accessioned | 2024-04-05T19:17:27Z | |
dc.date.available | 2024-04-05T19:17:27Z | |
dc.date.issued | 2024-02-02 | |
dc.identifier.citation | FUNICHELI, Breno Osvaldo. Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina. 2024. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19636. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/19636 | |
dc.description.abstract | Rice (Oryza sativa) is one of the largest collections of genetic resources among plant
species of economic interest. To increase the productivity of this cultivar, several genetic
variability studies have been developed. In this context, single nucleotide polymorphisms
(SNPs), which are single base variations in DNA sequences, have been widely studied, as
they act as molecular markers linked to productivity and resistance in rice cultivation.
However, due to the ineffectiveness of conventional methods in the task of selecting SNPs,
methods based on Machine Learning (ML) have been used. For this purpose, the selection
of SNPs is modeled as a Feature Selection (FS) problem. Although the use of FS is
widespread in the literature, there are still gaps regarding its use in the context of rice
genetic improvement. In conjunction with this, there is a need to investigate the SNPs
selected by these methods in genetic improvement studies, to offer possible biological
explanations linked to the results generated. To advance interesting points regarding this
discussion, this work proposes some ensemble methods for selecting SNPs, to combine
several FS algorithms to generate a robust result. These methods were implemented such
as to create a pipeline for SNPs selection. The pipeline was applied to a dataset with
multiple phenotypes linked to rice productivity. The proposed methods were compared
to other methods present in the literature, demonstrating the best results in some cases.
Furthermore, the use of functional enrichment as a strategy to explain the results was
explored. The dataset used belongs to the Coleção Nuclear de Arroz of Embrapa Arroz e
Feijão and was provided with the intention that the results generated in the present work
would be subsequently investigated and used in the genetic improvement of rice | eng |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | por |
dc.language.iso | por | por |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights | Attribution-ShareAlike 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-sa/3.0/br/ | * |
dc.subject | SNP | por |
dc.subject | Seleção de atributos | por |
dc.subject | Aprendizado de máquina | por |
dc.subject | Arroz | por |
dc.subject | Feature selection | eng |
dc.subject | Machine learning | eng |
dc.title | Seleção de SNPs em culturas de arroz utilizando aprendizado de máquina | por |
dc.title.alternative | Selection of SNPs in rice crops using machine learning | eng |
dc.type | Dissertação | por |
dc.contributor.advisor1 | Cerri, Ricardo | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/6266519868438512 | por |
dc.description.resumo | O arroz (Oryza sativa) é uma das maiores coleções de recursos genéticos entre as espécies vegetais de interesse econômico. Com o intuito de aumentar a produtividade desse cultivar, diversos estudos de variabilidade genética vêm sendo desenvolvidos. Nesse contexto, os polimorfismos de nucleotídeo único (SNPs), que são variações de base única nas sequências de DNA, têm sido amplamente estudados, pois atuam como marcadores moleculares vinculados à produtividade e resistência na cultura de arroz. No entanto, devido a não efetividade de métodos convencionais na tarefa de seleção de SNPs, métodos baseados em Aprendizado de Máquina (do inglês, "Machine Learning") (ML) vêm sendo utilizados. Para isso a seleção de SNPs é modelada como um problema de seleção de Atributos (do inglês, “Feature Selection”) (FS). Embora a utilização de FS seja amplamente difundida na literatura, ainda há lacunas quanto à sua utilização no contexto de melhoramento genético de arroz. Em conjunto a isso, observa-se a necessidade de investigação dos SNPs selecionados por esses métodos em estudos de melhoramento genético, de modo a oferecer possíveis explicações biológicas vinculadas aos resultados gerados. Com o intuito de avançar nuances referentes a essa discussão, o presente trabalho propôs alguns métodos de ensemble para seleção de SNPs, a fim de combinar diversos algoritmos de FS para geração de um resultado robusto. Os métodos foram implementados de maneira a criar um pipeline para seleção de SNPs. O pipeline foi aplicado a um conjunto de dados com múltiplos fenótipos ligados à produtividade do arroz. Os métodos propostos foram contrastados a outros métodos presentes na literatura, demonstrando resultados superiores em alguns casos. Além disso, foi explorada a utilização do enriquecimento funcional como estratégia de explicação dos resultados. O conjunto de dados utilizado pertence à Coleção Nuclear de Arroz da Embrapa Arroz e Feijão, e foi cedido com o intuito de que os resultados gerados no presente trabalho fossem posteriormente investigados e utilizados no melhoramento genético de arroz. | por |
dc.publisher.initials | UFSCar | por |
dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/1264469349936693 | por |
dc.contributor.authororcid | 0000-0002-4240-4578 | por |
dc.contributor.advisor1orcid | https://orcid.org/0000-0002-2582-1695 | por |