Mostrar registro simples

dc.contributor.authorAlcantara, Leonardo Utida
dc.date.accessioned2022-04-21T13:37:40Z
dc.date.available2022-04-21T13:37:40Z
dc.date.issued2021-11-19
dc.identifier.citationALCANTARA, Leonardo Utida. Árvore de predição semi-supervisionada para predição de localização subcelular de proteínas. 2021. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15893.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/15893
dc.description.abstractProtein subcellular localization is a really important classification task, because the location of proteins inside a cell is directly related to these protein’s functions. As there are a lot of proteins that reside at the same time in two or more locations in a cell or move between locations, usually supervised multi-label classification methods are designed to attack this problem. This approach is well-established in the literature; however, it presents some disadvantages such as: (i) the need for a large amount of labeled instances to train the classifier; (ii) this approach ignores the fact that unlabeled instances can provide valuable information for the classification; and (iii) there are a lot of areas in which unlabeled data is abundant but manually labelling an instance is too expensive and time-consuming. Semi-Supervised Learning (SSL) is a subfield of traditional machine learning, in which the learner tries to exploit both labeled and unlabeled data at the same time. Semi-Supervised Classification is a in a subcategory of SSL which uses the available unlabeled data to improve the classification prformance of a classification process that already uses labeled data. The main goal of this project was the develop a semi-supervised multi-label classifier able to use the abundant number of unlabeled proteins to improve the prediction of protein subcellular localization. The SSL algorithm developed in this work is based on the predictive clustering tree framework and it was constructed, tested and analysed in many SSL scenarios in order to test whether or not the classifier was able to use the unlabeled instances to help during the classification process in a set of Multi-Label protein subcellular localization datasets, from 3 different taxonomies: Viridiplantae, Virus and Fungi.eng
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectAprendizado de máquinapor
dc.subjectClassificaçãopor
dc.subjectBioinformáticapor
dc.subjectAprendizado de máquina multirrótulopor
dc.subjectAprendizado de máquina semi-supervisionadopor
dc.subjectMachine learningeng
dc.subjectClassificationeng
dc.subjectBioinformaticseng
dc.subjectMulti-label machine learningeng
dc.subjectSemi-supervised machine learningeng
dc.titleÁrvore de predição semi-supervisionada para predição de localização subcelular de proteínaspor
dc.title.alternativeSemi-supervised prediction tree for predicting subcellular localization of proteinseng
dc.typeTCCpor
dc.contributor.advisor1Cerri, Ricardo
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6266519868438512por
dc.contributor.advisor-co1Velázquez, Isaac Triguero
dc.description.resumoA localização subcelular de proteínas é uma tarefa de classificação de extrema importância, visto que a localização das proteínas dentro de uma célula está diretamente relacionada com as funções dessas proteínas. Como existe uma gama de proteínas que residem em dois ou mais locais ao mesmo tempo ou que se deslocam entre vários locais dentro da célula, normalmente métodos de classificação multirrótulo (CM) são projetados para atacar esse tipo de problema. Essa abordagem já é bem estabelecida na literatura, porém ela apresenta algumas desvantagens, como por exemplo: (i) a necessidade de um grande número de proteínas com localização subcelular anotada para treinar o classificador; (ii) essa abordagem ignora o fato de que as instâncias não rotuladas podem fornecer informações valiosas para a classificação; e (iii) existem diversas áreas de estudo em que instâncias não rotuladas existem em abundância e o processo para rotular uma instância é custoso e consome muito tempo. Aprendizado Semi-Supervisionado (ASS) é uma subárea do aprendizado de máquina tradicional na qual o algoritmo de predição tenta explorar os dados rotulados e não rotulados ao mesmo tempo. Classificação Semi-Supervisionada é uma subcategoria do ASS que usa os dados não rotulados para melhorar a performance de um classificador que já utiliza dados rotulados no processo de treino. O objetivo principal deste projeto foi desenvolver um classificador multirrótulo semi-supervisionado capaz de usar a quantidade abundante de proteínas não rotuladas disponível para melhorar a previsão da localização subcelular de proteínas. O algoritmo de ASS desenvolvido é baseado no framework predictive clustering trees e foi construído, testado e analisado em diversos cenários de ASS com a finalidade de validar se o classificador realmente seria capaz de utilizar as informações das instâncias não rotuladas para melhorar o processo de classificação em diversos conjuntos de dados multirrótulo em bases de dados de localização subcelular de proteínas para 3 diferentes taxonomias: Viridiplantae, Virus and Fungi.por
dc.publisher.initialsUFSCarpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpor
dc.description.sponsorshipId2017/24807-1por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/7631837051398731por
dc.publisher.courseEngenharia de Computação - ECpor


Arquivos deste item

Thumbnail
Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Exceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivs 3.0 Brazil