Show simple item record

dc.contributor.authorSantos, Bruna Zamith
dc.date.accessioned2022-04-21T12:17:38Z
dc.date.available2022-04-21T12:17:38Z
dc.date.issued2020-06-26
dc.identifier.citationSANTOS, Bruna Zamith. Classificação hierárquica multirrótulo de funções de proteínas via predição de interações. 2020. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15890.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/15890
dc.description.abstractProteins are macro-molecules responsible for virtually every task necessary for the maintenance of cells, having a fundamental role in the behavior and regulation of organisms. Advances in the area of Molecular Biology have allowed an almost complete listing of the proteins that make up the organisms. However, there are a large number of proteins whose function is still unknown, opening space for a new research focus in Molecular Biology. Usually, protein function prediction is performed using homology-based Bioinformatic tools, comparing a sequence with a database with many sequences belonging to previously known functions. This is a limited strategy, since it ignores the sequences' biochemical properties, and also the hierarchical relationships that may exist between the different classes. In the literature, the use of Machine Learning for the protein function prediction has shown to be promising, obtaining significant advances regarding the use of homology and other methods. Making use of Machine Learning, it is possible to model the protein function prediction problem as a Hierarchical Multi-label Classification (HMC) problem, due to the fact that protein functions are hierarchically organized and that they can occur simultaneously. This project proposes modeling the protein function prediction task as a Hierarchical Multi-label Classification problem through interaction data. Interaction data are characterized by two sets of objects, each described by their own set of features, which makes it possible to predict the interactions between two instances. In particular, we adapt the "Predictive Bi-Clustering Tree" (PBCT) method to HMC tasks. Our experiments demonstrate that PBCT-HMC is competitive to the state-of-art competitor.eng
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectAprendizado de máquinapor
dc.subjectAprendizado de máquina hierárquicopor
dc.subjectAprendizado de máquina multirrótulopor
dc.subjectPredição de funções de proteínaspor
dc.subjectBioinformáticapor
dc.subjectAprendizado supervisionadopor
dc.subjectMachine learningeng
dc.subjectHierarchical machine learningeng
dc.subjectMulti-label machine learningeng
dc.subjectProtein function predictioneng
dc.subjectBioinformaticseng
dc.subjectSupervised learningeng
dc.titleClassificação hierárquica multirrótulo de funções de proteínas via predição de interaçõespor
dc.title.alternativeHierarchical multi-label classification of protein functions via interaction predictioneng
dc.typeTCCpor
dc.contributor.advisor1Cerri, Ricardo
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6266519868438512por
dc.contributor.advisor-co1Vens, Celine
dc.description.resumoProteínas são macromoléculas responsáveis por praticamente todas as funções necessárias para a manutenção das células, tendo papel fundamental na regulação dos organismos. Avanços na área de Biologia Molecular permitiram uma listagem quase completa de todas as proteínas que compõem os organismos. Entretanto, existe um grande número de proteínas cujas funções ainda são desconhecidas, abrindo espaço para um novo foco de pesquisa em Biologia Molecular. Normalmente, a predição de funções de proteínas é feita usando-se ferramentas de Bioinformática baseadas em homologia, a qual consiste em comparar uma sequência com uma base de dados contendo várias sequências que pertencem a funções previamente conhecidas. Essa é uma estratégia limitada, uma vez que ignora as propriedades bioquímicas das sequências e as relações hierárquicas que podem existir entre as diferentes funções. Na literatura, o uso de Aprendizado de Máquina para predição de funções de proteínas tem se mostrado promissor, obtendo avanços significativos em relação ao uso de homologia e de outros métodos. Fazendo uso de Aprendizado de Máquina, é possível construir o problema de predição de funções de proteínas como um problema de Classificação Hierárquica Multirrótulo, devido ao fato de que funções de proteínas estão organizadas hierarquicamente e de que uma proteína pode exercer uma ou mais funções simultaneamente. Esse projeto propõe modelar o problema de predição de funções de proteínas como um problema de Classificação Hierárquica Multirrótulo, do inglês "Hierarchical Multi-label Classification" (HMC), através de dados interativos. Dados interativos são caracterizados por dois conjuntos de objetos, cada um descrito por seu próprio conjunto de atributos, o que permite a predição de interações entre duas instâncias. Em particular, adaptamos o método "Predictive Bi-Clustering Tree" (PBCT) para tarefas HMC. Nossos experimentos demonstraram que o PBCT-HMC é competitivo em relação ao concorrente estado-da-arte.por
dc.publisher.initialsUFSCarpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpor
dc.description.sponsorshipId2016/25078-0por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/3805045333740740por
dc.identifier.urlhttps://github.com/biomal/Clus-PBCT-HMCpor
dc.publisher.courseEngenharia de Computação - ECpor


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil