Data bubbles para algoritmos de fluxo de dados hierárquicos baseados em densidade

Nunes, Bruno Leonel

Data bubbles para algoritmos de fluxo de dados hierárquicos baseados em densidade

dc.contributor.advisor1	Naldi, Murilo Coelho
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/0573662728816861
dc.contributor.advisor1orcid	https://orcid.org/0000-0002-3107-8236
dc.contributor.author	Nunes, Bruno Leonel
dc.contributor.authorlattes	https://lattes.cnpq.br/1673892645756438
dc.date.accessioned	2026-02-05T18:14:37Z
dc.date.issued	2025-07-09
dc.description.abstract	Clustering data in Data Streams (DS) presents challenges due to the volume, velocity, and evolving nature of information. Hierarchical density-based clustering algorithms, such as HASTREAM, are promising for identifying arbitrarily shaped clusters, but their effectiveness critically depends on the quality of online data summarization. The standard approach, using Micro-Clusters (MCs), tends to lose information about the internal data distribution, distorting density estimates and negatively impacting the quality of the final clustering. This work proposes a novel summarization approach for hierarchical density-based clustering algorithms in DS, utilizing adapted Data Bubbles (DBs). DBs, which originally include internal density estimates , have been modified to operate under the damped window model, with new formulations for their properties based on weighted statistics. Furthermore, we propose a modification to the core distance calculation for DBs, aiming for better alignment with HDBSCAN* principles. The methodology involves integrating these adapted DBs and their revised distance metrics (modified Core Distance and Mutual Reachability Distance) into the HASTREAM algorithm, resulting in HASTREAM-DB. We describe the online maintenance processes for the adapted DBs (including the management of potential and outlier bubbles) and the subsequent offline phase of constructing the cluster hierarchy upon these structures. The objective is to demonstrate that the use of adapted Data Bubbles, by better preserving local spatial and density information, can mitigate the distortions inherent in MC-based summarization, leading to more accurate and robust cluster identification in Data Stream environments.	eng
dc.description.resumo	O agrupamento de dados em Fluxos de Dados (FD) apresenta desafios devido ao volume, velocidade e natureza evolutiva da informação. Algoritmos hierárquicos baseados em densidade, como o HASTREAM, são promissores para identificar clusters de formas arbitrárias, mas sua eficácia depende crucialmente da qualidade da sumarização online dos dados. A abordagem padrão, utilizando Micro-Clusters (MCs), tende a perder informações sobre a distribuição interna dos dados, distorcendo as estimativas de densidade e impactando negativamente a qualidade do agrupamento final.Este trabalho propõe uma nova abordagem de sumarização para algoritmos de agrupamento hierárquico baseados em densidade em FD, utilizando Data Bubbles (DBs) adaptadas. As DBs, que originalmente incluem estimativas de densidade interna, foram modificadas para operar sob o modelo de janela amortecida, com novas formulações para suas propriedades baseadas em estatísticas ponderadas. Além disso, propomos uma modificação no cálculo da distância core para DBs, visando alinhar-se melhor com os princípios do HDBSCAN*. A metodologia envolve a integração dessas DBs adaptadas e suas métricas de distância revisadas (Distância Core modificada e Distância de Alcançabilidade Mútua) ao algoritmo HASTREAM, resultando no HASTREAM-DB. Descrevemos os processos de manutenção online das DBs adaptadas (incluindo a gestão de bubbles potenciais e outliers) e a subsequente fase offline de construção da hierarquia de clusters sobre essas estruturas. O objetivo é demonstrar que a utilização de Data Bubbles adaptadas, por preservarem melhor a informação espacial e de densidade local, pode mitigar as distorções inerentes à sumarização por MCs, levando a uma identificação de clusters mais precisa e robusta em ambientes de Fluxo de Dados.	por
dc.description.sponsorship	Não recebi financiamento
dc.identifier.citation	NUNES, Bruno Leonel. Data bubbles para algoritmos de fluxo de dados hierárquicos baseados em densidade. 2025. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23573.	por
dc.identifier.uri	https://hdl.handle.net/20.500.14289/23573
dc.language.iso	por
dc.publisher	Universidade Federal de São Carlos
dc.publisher.address	Campus São Carlos
dc.publisher.course	Engenharia de Computação - EC
dc.publisher.initials	UFSCar
dc.rights	Attribution 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/br/
dc.subject	Sumarização de dados	por
dc.subject	Data bubbles	por
dc.subject	Fluxo de dados	por
dc.subject	Agrupamento baseado em densidade	por
dc.subject	Agrupamento hierárquico	por
dc.subject	HASTREAM	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
dc.subject.ods	9. Indústria, Inovação e Infraestrutura
dc.title	Data bubbles para algoritmos de fluxo de dados hierárquicos baseados em densidade	por
dc.title.alternative	Data bubbles for density-based hierarchical data flow algorithms	eng
dc.type	TCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: TCC_Bruno_Leonel_Revisado.pdf
Tamanho:: 1.75 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

TCC