Show simple item record

dc.contributor.authorSabino, Mariana Zagatti
dc.date.accessioned2021-11-26T14:25:43Z
dc.date.available2021-11-26T14:25:43Z
dc.date.issued2021-11-23
dc.identifier.citationSABINO, Mariana Zagatti. Avaliação de métodos de construção de redes na classificação semi-supervisionada de textos. 2021. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15172.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/15172
dc.description.abstractDue to the shear amount of data produced daily in text format, being it publicly on social media or privately inside enterprises, there is a growing need to analyze and extract information from them. The objective is to transform this data into useful tools such as translation systems and virtual assistants. The area of Natural Language Processing, together with Machine Learning, provides the necessary technologies for such objective. One of the most explored tasks in this context is text classification. Between the diverse approaches existing in this area, semi-supervised learning algorithms stand out. Specifically, transductive algorithms, that receive as input data in the form of networks and return labeled data. This strategy needs the initial construction of a network based on the analyzed data, a task for which many algorithms can be used, producing networks with different topological characteristics, interfering directly in the classification accuracy. In this context, the objective of this study is to analyze the influence of network-building algorithms on semi-supervised text classification. An empirical evaluation on real document collections was carried out. The results point that algorithms that generate non-regular networks have a better overall performance, furthermore algorithms that allow the use of the cosine metric, more suitable for text-based data, performed better than those that don’t. These methods are: k-NN, Epsilon, GBLP and Mk-NN.eng
dc.description.sponsorshipNão recebi financiamentopor
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectAprendizado de máquinapor
dc.subjectProcessamento de linguagem naturalpor
dc.subjectAprendizado semi-supervisionadopor
dc.subjectInteligência artificialpor
dc.subjectConstrução de redespor
dc.subjectMachine learningeng
dc.subjectNatural language processingeng
dc.subjectSemi-supervised learningeng
dc.subjectArtificial intelligenceeng
dc.subjectNetwork constructioneng
dc.titleAvaliação de métodos de construção de redes na classificação semi-supervisionada de textospor
dc.title.alternativeA comparison of network construction algorithms for semi-supervised text classificationeng
dc.typeTCCpor
dc.contributor.advisor1Valejo, Alan Demétrius Baria
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9546164790189830por
dc.description.resumoDevido à grande quantidade de dados produzidos diariamente no formato de texto, seja publicamente em redes sociais ou de forma privada dentro de empresas, há a necessidade de analisá-los e extrair deles informação. O objetivo é transformá-los em ferramentas úteis, como sistemas de tradução e assistentes virtuais. A área de processamento de linguagem natural, em conjunto com o aprendizado de máquina, fornece as tecnologias necessárias para tal objetivo. Uma das tarefas mais exploradas nesse contexto é a classificação de textos em categorias de interesse, sendo que dentre as diversas abordagens existentes nessa área, destacam-se os algoritmos de aprendizado semi-supervisionado, em específico os transdutivos que recebem como entrada dados em formato de redes e retornam os dados rotulados. Essa estratégia necessita, inicialmente, da construção de uma rede a partir dos dados analisados, sendo que diversos algoritmos podem ser utilizados para esse propósito, os quais produzem redes com características topológicas distintas, interferindo diretamente na acurácia da classificação. Nesse contexto, o objetivo deste estudo é analisar a influência dos algoritmos de construção de redes na classificação semi-supervisionada de texto. Foi feita uma avaliação empírica em coleções reais de documentos. Os resultados apontaram que algoritmos que não geram redes regulares e utilizam a distância cosseno, que é mais adequada para dados textuais, performam melhor. São eles: k-NN, Epsilon, GBLP e Mk-NN.por
dc.publisher.initialsUFSCarpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/9974328567127695por
dc.publisher.courseEngenharia de Computação - ECpor


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil