dc.contributor.author | Tavares, Thayana Vieira | |
dc.date.accessioned | 2022-01-20T21:25:28Z | |
dc.date.available | 2022-01-20T21:25:28Z | |
dc.date.issued | 2021-12-17 | |
dc.identifier.citation | TAVARES, Thayana Vieira. Aprendizado de Máquina para classificação das linhagens de Copia e Gypsy de angiospermas. 2021. Trabalho de Conclusão de Curso (Graduação em Biotecnologia) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15496. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/15496 | |
dc.description.abstract | This study used machine learning algorithms (neural network, decision tree and close neighbors algorithm) to create classification models of 11 lineages of the Copia and Gypsy superfamilies, using angiosperm DNA sequences as training. Of eight models, three were efficient and were able to satisfactorily classify the sequences, in addition to being potentially efficient in classifying data from angiosperm species that were not in the dataset used for training. A comparison of the classification of the three most efficient models was also carried out with the prediction made by the Blast program, which has an algorithm based on sequence alignment, as a result, excellent classification metrics were obtained, however, considering 80% identity and 80 % coverage for there to be a prediction, it failed to classify 30% of the sequences. | eng |
dc.description.sponsorship | Não recebi financiamento | por |
dc.language.iso | por | por |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Retrotransposons | por |
dc.subject | Aprendizado de máquina | por |
dc.subject | Classificação | por |
dc.title | Aprendizado de Máquina para classificação das linhagens de Copia e Gypsy de angiospermas | por |
dc.title.alternative | Machine learning for classification of Copia and Gypsy strains of angiosperms | eng |
dc.type | TCC | por |
dc.contributor.advisor1 | Cerri, Ricardo | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/6266519868438512 | por |
dc.description.resumo | Este estudo utilizou algoritmos de aprendizado de máquina (rede neural, árvore de decisão e algoritmo dos vizinhos próximos) para criar modelos de classificação de 11 linhagens das superfamílias Copia e Gypsy, utilizando como treinamento sequências de DNA de angiospermas. De oito modelos, três se mostraram eficientes e conseguiram classificar satisfatoriamente as sequências, além de se mostrarem potencialmente eficiente na classificação de dados de espécies de angiospermas que não estavam no conjunto de dados usado para treino. Também foi realizado comparação da classificação dos três modelos mais eficientes com a predição feita pelo programa Blast, o qual possui um algoritmo baseado em alinhamento de sequências, como resultado, obteve-se excelentes métricas de classificação, todavia, considerando 80% de identidade e 80% de cobertura para que houvesse uma predição, este não conseguiu classificar 30% das sequências. | por |
dc.publisher.initials | UFSCar | por |
dc.subject.cnpq | CIENCIAS BIOLOGICAS::BIOQUIMICA::BIOLOGIA MOLECULAR | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/6055583178395953 | por |
dc.publisher.course | Biotecnologia - Biotec | por |