Avaliação de métodos de construção de redes na classificação semi-supervisionada de textos

Sabino, Mariana Zagatti

dc.contributor.author	Sabino, Mariana Zagatti
dc.date.accessioned	2021-11-26T14:25:43Z
dc.date.available	2021-11-26T14:25:43Z
dc.date.issued	2021-11-23
dc.identifier.citation	SABINO, Mariana Zagatti. Avaliação de métodos de construção de redes na classificação semi-supervisionada de textos. 2021. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15172.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/15172
dc.description.abstract	Due to the shear amount of data produced daily in text format, being it publicly on social media or privately inside enterprises, there is a growing need to analyze and extract information from them. The objective is to transform this data into useful tools such as translation systems and virtual assistants. The area of Natural Language Processing, together with Machine Learning, provides the necessary technologies for such objective. One of the most explored tasks in this context is text classification. Between the diverse approaches existing in this area, semi-supervised learning algorithms stand out. Specifically, transductive algorithms, that receive as input data in the form of networks and return labeled data. This strategy needs the initial construction of a network based on the analyzed data, a task for which many algorithms can be used, producing networks with different topological characteristics, interfering directly in the classification accuracy. In this context, the objective of this study is to analyze the influence of network-building algorithms on semi-supervised text classification. An empirical evaluation on real document collections was carried out. The results point that algorithms that generate non-regular networks have a better overall performance, furthermore algorithms that allow the use of the cosine metric, more suitable for text-based data, performed better than those that don’t. These methods are: k-NN, Epsilon, GBLP and Mk-NN.	eng
dc.description.sponsorship	Não recebi financiamento	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Aprendizado de máquina	por
dc.subject	Processamento de linguagem natural	por
dc.subject	Aprendizado semi-supervisionado	por
dc.subject	Inteligência artificial	por
dc.subject	Construção de redes	por
dc.subject	Machine learning	eng
dc.subject	Natural language processing	eng
dc.subject	Semi-supervised learning	eng
dc.subject	Artificial intelligence	eng
dc.subject	Network construction	eng
dc.title	Avaliação de métodos de construção de redes na classificação semi-supervisionada de textos	por
dc.title.alternative	A comparison of network construction algorithms for semi-supervised text classification	eng
dc.type	TCC	por
dc.contributor.advisor1	Valejo, Alan Demétrius Baria
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/9546164790189830	por
dc.description.resumo	Devido à grande quantidade de dados produzidos diariamente no formato de texto, seja publicamente em redes sociais ou de forma privada dentro de empresas, há a necessidade de analisá-los e extrair deles informação. O objetivo é transformá-los em ferramentas úteis, como sistemas de tradução e assistentes virtuais. A área de processamento de linguagem natural, em conjunto com o aprendizado de máquina, fornece as tecnologias necessárias para tal objetivo. Uma das tarefas mais exploradas nesse contexto é a classificação de textos em categorias de interesse, sendo que dentre as diversas abordagens existentes nessa área, destacam-se os algoritmos de aprendizado semi-supervisionado, em específico os transdutivos que recebem como entrada dados em formato de redes e retornam os dados rotulados. Essa estratégia necessita, inicialmente, da construção de uma rede a partir dos dados analisados, sendo que diversos algoritmos podem ser utilizados para esse propósito, os quais produzem redes com características topológicas distintas, interferindo diretamente na acurácia da classificação. Nesse contexto, o objetivo deste estudo é analisar a influência dos algoritmos de construção de redes na classificação semi-supervisionada de texto. Foi feita uma avaliação empírica em coleções reais de documentos. Os resultados apontaram que algoritmos que não geram redes regulares e utilizam a distância cosseno, que é mais adequada para dados textuais, performam melhor. São eles: k-NN, Epsilon, GBLP e Mk-NN.	por
dc.publisher.initials	UFSCar	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/9974328567127695	por
dc.publisher.course	Engenharia de Computação - EC	por

Files in this item

Name:: TCC-Mariana-Zagatti-Sabino-rev ...
Size:: 2.280Mb
Format:: PDF
Description:: TCC Mariana Zagatti Sabino

View/Open

Name:: license_rdf
Size:: 811bytes
Format:: application/rdf+xml

View/Open

This item appears in the following Collection(s)

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil