Aprendizado de máquina multirrótulo para predição de doenças associadas a RNAs longos não codificantes

dc.contributor.advisor-co1Fuentes, Andrea Soarea da Costa
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/2426157257540389
dc.contributor.advisor-co1orcidhttps://orcid.org/0000-0002-7379-1136
dc.contributor.advisor1Cerri, Ricardo
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6266519868438512
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-2582-1695
dc.contributor.authorBertoni, Lívia Umberto
dc.contributor.authorlatteshttp://lattes.cnpq.br/0967041422340479
dc.contributor.authororcidhttp://lattes.cnpq.br/0967041422340479
dc.date.accessioned2025-02-26T14:05:55Z
dc.date.issued2025-02-12
dc.description.abstractLong non-coding RNAs (lncRNAs) are RNA molecules longer than 200 nucleotides that are not translated into proteins. These RNAs play crucial roles in processes such as cell cycle regulation, epigenetics, cell differentiation, and both post-transcriptional and transcriptional regulation. Abnormal expression of lncRNAs has been increasingly associated with various human diseases, including cardiovascular, neurological, and oncological conditions. While different biotechnological approaches have been employed to identify and detect lncRNAs, these methods face significant challenges related to cost, operational complexity, and experimental procedure. Consequently, the development of artificial intelligence-based models for disease prediction using lncRNA data presents itself as a promising alternative. This study focuses on the implementation of machine learning algorithms for predicting diseases associated with lncRNAs, addressing it as a multi-label classification problem, given that a single lncRNA can be linked to multiple diseases. Various methods, including problem transformation approaches and algorithm adaptation approaches, were tested. The classifiers' performance was assessed using evaluation metrics for multi-label problems, including Precision, Recall, F-measure, and Hamming Loss. Furthermore, for comparative analysis, statistical tests were performed, specifically the Friedman and Nemenyi tests. Based on the analysis of the results, hypotheses regarding the performance of the algorithms were formulated. However, despite the observed differences, the methods showed an overall unsatisfactory performance, which we attribute to the high sparsity presented in the dataset. Thus, for future work, the investigation of more robust methods to address this issue was proposed, aiming to enhance prediction performance and improve the understanding of biological interactions.eng
dc.description.resumoRNAs longos não codificantes (lncRNAs) são RNAs com mais de 200 nucleotídeos e que não são traduzidos em proteínas. Esses desempenham funções cruciais em uma ampla gama de processos biológicos, como regulação do ciclo celular, epigenética, diferenciação celular, regulação pós-transcricional e transcricional. Em paralelo, um número crescente de estudos tem identificado associações entre expressões anormais de lncRNAs e diversas doenças humanas, incluindo cardiovasculares, neurológicas e oncológicas. Assim, para identificação e detecção de lncRNAs, têm sido empregadas diferentes abordagens biotecnológicas. No entanto, esses métodos enfrentam desafios consideráveis associados a custo, procedimento operacional e processo experimental. Dessa forma, a construção de modelos baseados em inteligência artificial para predição de doenças a partir de dados de lncRNAs apresenta-se como uma alternativa promissora. Este trabalho tem como objetivo a implementação de algoritmos de aprendizado de máquina para a predição de doenças associadas a RNAs longos não codificantes (lncRNAs). Tendo em vista que um mesmo lncRNA pode estar associado a mais de uma doença, trata-se de um caso de classificação multirrótulo. Neste cenário, foram testados diferentes métodos, de abordagens dependentes e independentes de algoritmo. O desempenho dos classificadores foi avaliado por meio de medidas de avaliação para problemas multirrótulo, sendo estas Precisão, Revocação, MedidaF e Hamming Loss. E, para fins de comparação, testes estatísticos foram performados, sendo estes Teste de Friedman e Teste de Nemenyi. A partir da análise dos resultados, foram formuladas hipóteses a respeito da performance dos algoritmos. No entanto, apesar de diferenças observadas, os métodos apresentaram um desempenho geral insatisfatório, o qual atribuímos à elevada esparsidade do conjunto de dados utilizado. Dessa forma, para trabalhos futuros, foi proposta a investigação de métodos mais robustos para lidar com este problema, de modo a aprimorar as predições e avançar na compreensão das interações biológicas.
dc.description.sponsorshipNão recebi financiamento
dc.identifier.citationBERTONI, Lívia Umberto. Aprendizado de máquina multirrótulo para predição de doenças associadas a RNAs longos não codificantes. 2025. Trabalho de Conclusão de Curso (Graduação em Biotecnologia) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21465.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/21465
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.courseBiotecnologia - Biotec
dc.publisher.initialsUFSCar
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectDoenças
dc.subjectPredição
dc.subjectAprendizado de Máquina
dc.subjectClassificação
dc.subjectMultirrótulok
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
dc.titleAprendizado de máquina multirrótulo para predição de doenças associadas a RNAs longos não codificantes
dc.title.alternativeMultilabel classification machine learning method for predicting long non coding RNA-associated diseaseseng
dc.typeTCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
LíviaUmbertoBertoni_TCCFinal.pdf
Tamanho:
762.79 KB
Formato:
Adobe Portable Document Format

Coleções