Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings

Polastri, Paulo César

dc.contributor.author	Polastri, Paulo César
dc.date.accessioned	2024-03-11T11:56:27Z
dc.date.available	2024-03-11T11:56:27Z
dc.date.issued	2021-12-15
dc.identifier.citation	POLASTRI, Paulo César. Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19617.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/19617
dc.description.abstract	There is a large amount of text documents available on the web which increases as more devices and users connect to the network. Analyzing and organizing such documents considering characteristics such as subject and keywords becomes an increasingly expensive task, but indispensable, considering tasks such as text mining and information retrieval and, therefore, ways to improve the performance of such tasks are widely investigated. Most tasks aimed at organizing documents available today, such as clustering tasks, focus on only one dimension, that is, clustering only documents considering the occurrence of terms. However, an important aspect of clustering documents is finding topics that identify groups of documents by their content. Two-dimensional clustering strategies, which simultaneously group documents and terms, can be useful in this regard. However, the representation used is, in general, in the form of matrices of high dimensionality and sparsity, which does not include any semantic information. This work presents a new approach to organize documents using co-clustering and the representation of terms in the form of embeddings. The terms of the document collection are clustered in advance, allowing for the reduction of the sparsity and dimensionality of the matrix. In addition to the new representation, the proposed strategy includes contributions to assess the outcome of co-clustering that explore the association between groups of documents and terms. In co-clustering tasks, the results showed that the representation surpasses the traditional TF-IDF representation in specific cases.	eng
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Organização de documentos e termos	por
dc.subject	Co-clustering	eng
dc.subject	Avaliação de co-clustering	por
dc.subject	Word embeddings	eng
dc.title	Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings	por
dc.title.alternative	Organizing terms and documents using Co-clustering and Word Embeddings	eng
dc.type	Tese	por
dc.contributor.advisor1	Camargo, Heloisa de Arruda
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/0487231065057783	por
dc.description.resumo	Existe uma grande quantidade de documentos de texto disponível na literatura que aumenta à medida que fluxo de informações aumenta. Analisar e organizar tais documentos considerando características como assunto torna-se uma tarefa cada vez mais dispendiosa, porém indispensável, considerando tarefas como mineração de textos e recuperação de informações e, sendo assim, meios para melhorar o desempenho de tais tarefas são amplamente investigados. A maioria das tarefas voltadas para a organização de documentos disponíveis atualmente, como tarefas de clustering, se concentram em apenas uma dimensão, ou seja, agrupar apenas os documentos considerando a ocorrência de termos. Porém, um aspecto importante do agrupamento de documentos é encontrar tópicos que identificam os clusters de documentos segundo seu conteúdo. Estratégias de clustering bidimensional, que agrupam simultaneamente documentos e termos, podem ser úteis nesse sentido. Entretanto, a representação utilizada é, em geral, na forma de matrizes de alta dimensionalidade e esparsidade, que não inclui nenhuma informação semântica. Neste trabalho é apresentada uma abordagem para organizar documentos usando co-clustering e a representação dos termos na forma de embeddings. Os termos da coleção de documentos são agrupados previamente, permitindo a redução da esparsidade e dimensionalidade da matriz. Além da nova representação, a estratégia proposta inclui contribuições para avaliar o resultado do co-clustering que exploram a associação entre clusters de documentos e termos. Em tarefas de co-clustering, os resultados mostraram que a representação supera a representação TF-IDF (Term Frequency Inverse Document Frequency) tradicional em muitos casos.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.description.sponsorshipId	88882.426807/2019-01	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/1341941141535178	por
dc.contributor.authororcid	https://orcid.org/0009-0000-5709-7235	por
dc.contributor.advisor1orcid	https://orcid.org/0000-0002-5489-7306	por

Arquivos deste item

Nome:: TESE_PCP_homologação_FA.pdf
Tamanho:: 4.002Mb
Formato:: PDF
Descrição:: Tese de doutorado

Visualizar/Abrir

Nome:: license_rdf
Tamanho:: 810bytes
Formato:: application/rdf+xml

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Teses e dissertações

Mostrar registro simples

Exceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivs 3.0 Brazil