Agrupamento de embeddings: análise exploratória de datasets textuais

dc.contributor.advisor1Naldi, Murilo Coelho
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0573662728816861
dc.contributor.authorMarchiori, Lucas Henrique
dc.contributor.authorlatteshttp://lattes.cnpq.br/6396701467303227
dc.date.accessioned2026-02-05T18:05:02Z
dc.date.issued2025-12-08
dc.description.abstractABSTRACT The inadequate selection of clustering algorithms for word embeddings—vector representation techniques that capture semantic relationships in multidimensional spaces—can significantly compromise the quality of semantic pattern discovery, resulting in clusters with low internal cohesion and poor separation. The absence of clear guidelines forces researchers into extensive trial-and-error processes, consuming computational resources and time, which can lead to performance degradation in subsequent Natural Language Processing tasks. In this context, this work investigates the performance of four clustering algorithms (K-Means, Self-Organizing Maps (SOM), HDBSCAN, and Agglomerative Hierarchical Clustering (AHC)) applied to word embeddings generated by the Word2Vec and SBERT models across ten datasets from distinct domains. The quality of the clusters was measured by quantitative metrics, such as the Silhouette Score, the Davies-Bouldin Index (DBI),the Density-Based Clustering Validation Index (DBCV), and the Adjusted Rand Index(ARI). The results revealed that no universally superior combination exists, but rather systematic patterns that allow for a scientific prediction of the optimal methodology. The HDBSCAN + Word2Vec combination emerged as dominant in 66% of cases, proving especially effectivein domains with standardized vocabulary or structured informational redundancy, such as in Reuters-21578 and Steam Games. Conversely, the HDBSCAN + SBERT combination was superior in creative and semantically heterogeneous domains, such as Spotify and Amazon Reviews, which require greatercontextual understanding. The study establishes that the type of textual domain specialization—creative or technical—determines the optimal embedding. Additionally, HDBSCAN established itself as the most versatile algorithm, achieving the best performance in 72% of the analyzed scenarios, notably for its robustness in handling noise and variable-density clusters, which are intrinsic characteristics of real-world textual data.eng
dc.description.resumoRESUMO A seleção inadequada de algoritmos de agrupamento para embeddings — técnicas de representação vetorial de palavras que capturam relações semânticas em espaços multidimensionais — pode comprometer significativamente a qualidade da descoberta de padrões semânticos, resultando em agrupamentos com baixa coesão interna e separação deficiente entre grupos. A ausência de diretrizes claras força pesquisadores a extensivos processos de tentativa e erro, consumindo recursos computacionais e tempo, o que pode levar à perda de desempenho em tarefas subsequentes de Processamento de Linguagem Natural. Neste contexto, este trabalho investiga o desempenho de quatro algoritmos de agrupamento (K-Means, Self-Organizing Maps (SOM), HDBSCAN e Agrupamento Hierárquico Aglomerativo (HCA)) aplicados a word embeddings gerados pelos modelos Word2Vec e SBERT sobre dez conjuntos de dados de domínios distintos. A qualidade dos agrupamentos foi mensurada por métricas quantitativas, como o Índice de Silhueta, o Índice de Davies-Bouldin (DBI) , Density-Based Clustering Validation Index (DBCV) e o Adjusted Rand Index(ARI) . Os resultados revelaram que não existe uma combinação universalmente superior, mas sim padrões sistemáticos que permitem uma predição científica da metodologia ótima. A combinação HDBSCAN + Word2Vec emergiu como dominante em 66% dos casos, mostrando-se especialmente eficaz em domínios com vocabulário padronizado ou redundância informativa estruturada, como em Reuters-21578 e Steam Games. Em contrapartida, a combinação HDBSCAN + SBERT foi superior em domínios criativos e semanticamente heterogêneos, como Spotify e Amazon Reviews, que exigem maior compreensão contextual. O estudo estabelece que o tipo de especialização do domínio textual — criativa ou técnica — determina o embedding ótimo. Adicionalmente, o HDBSCAN consolidou-se como o algoritmo mais versátil, apresentando o melhor desempenho em 72% dos cenários analisados, notadamente por sua robustez em lidar com ruído e agrupamentos de densidade variável, características intrínsecas a dados textuais do mundo real.por
dc.identifier.citationMARCHIORI, Lucas Henrique. Agrupamento de embeddings: análise exploratória de datasets textuais. 2025. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23572.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/23572
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.courseEngenharia de Computação - EC
dc.publisher.initialsUFSCar
dc.rightsAttribution 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.subjectAlgoritmos de agrupamentopor
dc.subjectWord embeddingspor
dc.subjectProcessamento de linguagem naturalpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.ods9. Indústria, Inovação e Infraestrutura
dc.titleAgrupamento de embeddings: análise exploratória de datasets textuaispor
dc.title.alternativeEmbedding clustering: an exploratory analysis of textual datasetseng
dc.typeTCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCC_Lucas_Marchiori.pdf
Tamanho:
3.68 MB
Formato:
Adobe Portable Document Format

Coleções