Agrupamento de embeddings: análise exploratória de datasets textuais

Marchiori, Lucas Henrique

Agrupamento de embeddings: análise exploratória de datasets textuais

dc.contributor.advisor1	Naldi, Murilo Coelho
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/0573662728816861
dc.contributor.author	Marchiori, Lucas Henrique
dc.contributor.authorlattes	https://lattes.cnpq.br/6396701467303227
dc.date.accessioned	2026-02-05T18:05:02Z
dc.date.issued	2025-12-08
dc.description.abstract	ABSTRACT The inadequate selection of clustering algorithms for word embeddings—vector representation techniques that capture semantic relationships in multidimensional spaces—can significantly compromise the quality of semantic pattern discovery, resulting in clusters with low internal cohesion and poor separation. The absence of clear guidelines forces researchers into extensive trial-and-error processes, consuming computational resources and time, which can lead to performance degradation in subsequent Natural Language Processing tasks. In this context, this work investigates the performance of four clustering algorithms (K-Means, Self-Organizing Maps (SOM), HDBSCAN, and Agglomerative Hierarchical Clustering (AHC)) applied to word embeddings generated by the Word2Vec and SBERT models across ten datasets from distinct domains. The quality of the clusters was measured by quantitative metrics, such as the Silhouette Score, the Davies-Bouldin Index (DBI),the Density-Based Clustering Validation Index (DBCV), and the Adjusted Rand Index(ARI). The results revealed that no universally superior combination exists, but rather systematic patterns that allow for a scientific prediction of the optimal methodology. The HDBSCAN + Word2Vec combination emerged as dominant in 66% of cases, proving especially effectivein domains with standardized vocabulary or structured informational redundancy, such as in Reuters-21578 and Steam Games. Conversely, the HDBSCAN + SBERT combination was superior in creative and semantically heterogeneous domains, such as Spotify and Amazon Reviews, which require greatercontextual understanding. The study establishes that the type of textual domain specialization—creative or technical—determines the optimal embedding. Additionally, HDBSCAN established itself as the most versatile algorithm, achieving the best performance in 72% of the analyzed scenarios, notably for its robustness in handling noise and variable-density clusters, which are intrinsic characteristics of real-world textual data.	eng
dc.description.resumo	RESUMO A seleção inadequada de algoritmos de agrupamento para embeddings — técnicas de representação vetorial de palavras que capturam relações semânticas em espaços multidimensionais — pode comprometer significativamente a qualidade da descoberta de padrões semânticos, resultando em agrupamentos com baixa coesão interna e separação deficiente entre grupos. A ausência de diretrizes claras força pesquisadores a extensivos processos de tentativa e erro, consumindo recursos computacionais e tempo, o que pode levar à perda de desempenho em tarefas subsequentes de Processamento de Linguagem Natural. Neste contexto, este trabalho investiga o desempenho de quatro algoritmos de agrupamento (K-Means, Self-Organizing Maps (SOM), HDBSCAN e Agrupamento Hierárquico Aglomerativo (HCA)) aplicados a word embeddings gerados pelos modelos Word2Vec e SBERT sobre dez conjuntos de dados de domínios distintos. A qualidade dos agrupamentos foi mensurada por métricas quantitativas, como o Índice de Silhueta, o Índice de Davies-Bouldin (DBI) , Density-Based Clustering Validation Index (DBCV) e o Adjusted Rand Index(ARI) . Os resultados revelaram que não existe uma combinação universalmente superior, mas sim padrões sistemáticos que permitem uma predição científica da metodologia ótima. A combinação HDBSCAN + Word2Vec emergiu como dominante em 66% dos casos, mostrando-se especialmente eficaz em domínios com vocabulário padronizado ou redundância informativa estruturada, como em Reuters-21578 e Steam Games. Em contrapartida, a combinação HDBSCAN + SBERT foi superior em domínios criativos e semanticamente heterogêneos, como Spotify e Amazon Reviews, que exigem maior compreensão contextual. O estudo estabelece que o tipo de especialização do domínio textual — criativa ou técnica — determina o embedding ótimo. Adicionalmente, o HDBSCAN consolidou-se como o algoritmo mais versátil, apresentando o melhor desempenho em 72% dos cenários analisados, notadamente por sua robustez em lidar com ruído e agrupamentos de densidade variável, características intrínsecas a dados textuais do mundo real.	por
dc.identifier.citation	MARCHIORI, Lucas Henrique. Agrupamento de embeddings: análise exploratória de datasets textuais. 2025. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23572.	por
dc.identifier.uri	https://hdl.handle.net/20.500.14289/23572
dc.language.iso	por
dc.publisher	Universidade Federal de São Carlos
dc.publisher.address	Campus São Carlos
dc.publisher.course	Engenharia de Computação - EC
dc.publisher.initials	UFSCar
dc.rights	Attribution 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/br/
dc.subject	Algoritmos de agrupamento	por
dc.subject	Word embeddings	por
dc.subject	Processamento de linguagem natural	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.ods	9. Indústria, Inovação e Infraestrutura
dc.title	Agrupamento de embeddings: análise exploratória de datasets textuais	por
dc.title.alternative	Embedding clustering: an exploratory analysis of textual datasets	eng
dc.type	TCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: TCC_Lucas_Marchiori.pdf
Tamanho:: 3.68 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

TCC