Mostrar registro simples

dc.contributor.authorPolastri, Paulo César
dc.date.accessioned2024-03-11T11:56:27Z
dc.date.available2024-03-11T11:56:27Z
dc.date.issued2021-12-15
dc.identifier.citationPOLASTRI, Paulo César. Organização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddings. 2021. Tese (Doutorado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19617.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/19617
dc.description.abstractThere is a large amount of text documents available on the web which increases as more devices and users connect to the network. Analyzing and organizing such documents considering characteristics such as subject and keywords becomes an increasingly expensive task, but indispensable, considering tasks such as text mining and information retrieval and, therefore, ways to improve the performance of such tasks are widely investigated. Most tasks aimed at organizing documents available today, such as clustering tasks, focus on only one dimension, that is, clustering only documents considering the occurrence of terms. However, an important aspect of clustering documents is finding topics that identify groups of documents by their content. Two-dimensional clustering strategies, which simultaneously group documents and terms, can be useful in this regard. However, the representation used is, in general, in the form of matrices of high dimensionality and sparsity, which does not include any semantic information. This work presents a new approach to organize documents using co-clustering and the representation of terms in the form of embeddings. The terms of the document collection are clustered in advance, allowing for the reduction of the sparsity and dimensionality of the matrix. In addition to the new representation, the proposed strategy includes contributions to assess the outcome of co-clustering that explore the association between groups of documents and terms. In co-clustering tasks, the results showed that the representation surpasses the traditional TF-IDF representation in specific cases.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectOrganização de documentos e termospor
dc.subjectCo-clusteringeng
dc.subjectAvaliação de co-clusteringpor
dc.subjectWord embeddingseng
dc.titleOrganização de termos e documentos utilizando Co-clustering e agrupamento de Word Embeddingspor
dc.title.alternativeOrganizing terms and documents using Co-clustering and Word Embeddingseng
dc.typeTesepor
dc.contributor.advisor1Camargo, Heloisa de Arruda
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0487231065057783por
dc.description.resumoExiste uma grande quantidade de documentos de texto disponível na literatura que aumenta à medida que fluxo de informações aumenta. Analisar e organizar tais documentos considerando características como assunto torna-se uma tarefa cada vez mais dispendiosa, porém indispensável, considerando tarefas como mineração de textos e recuperação de informações e, sendo assim, meios para melhorar o desempenho de tais tarefas são amplamente investigados. A maioria das tarefas voltadas para a organização de documentos disponíveis atualmente, como tarefas de clustering, se concentram em apenas uma dimensão, ou seja, agrupar apenas os documentos considerando a ocorrência de termos. Porém, um aspecto importante do agrupamento de documentos é encontrar tópicos que identificam os clusters de documentos segundo seu conteúdo. Estratégias de clustering bidimensional, que agrupam simultaneamente documentos e termos, podem ser úteis nesse sentido. Entretanto, a representação utilizada é, em geral, na forma de matrizes de alta dimensionalidade e esparsidade, que não inclui nenhuma informação semântica. Neste trabalho é apresentada uma abordagem para organizar documentos usando co-clustering e a representação dos termos na forma de embeddings. Os termos da coleção de documentos são agrupados previamente, permitindo a redução da esparsidade e dimensionalidade da matriz. Além da nova representação, a estratégia proposta inclui contribuições para avaliar o resultado do co-clustering que exploram a associação entre clusters de documentos e termos. Em tarefas de co-clustering, os resultados mostraram que a representação supera a representação TF-IDF (Term Frequency Inverse Document Frequency) tradicional em muitos casos.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCCpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpor
dc.description.sponsorshipId88882.426807/2019-01por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/1341941141535178por
dc.contributor.authororcidhttps://orcid.org/0009-0000-5709-7235por
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-5489-7306por


Arquivos deste item

Thumbnail
Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Exceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivs 3.0 Brazil