Data bubbles para algoritmos de fluxo de dados hierárquicos baseados em densidade

dc.contributor.advisor1Naldi, Murilo Coelho
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0573662728816861
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-3107-8236
dc.contributor.authorNunes, Bruno Leonel
dc.contributor.authorlatteshttp://lattes.cnpq.br/1673892645756438
dc.date.accessioned2026-02-05T18:14:37Z
dc.date.issued2025-07-09
dc.description.abstractClustering data in Data Streams (DS) presents challenges due to the volume, velocity, and evolving nature of information. Hierarchical density-based clustering algorithms, such as HASTREAM, are promising for identifying arbitrarily shaped clusters, but their effectiveness critically depends on the quality of online data summarization. The standard approach, using Micro-Clusters (MCs), tends to lose information about the internal data distribution, distorting density estimates and negatively impacting the quality of the final clustering. This work proposes a novel summarization approach for hierarchical density-based clustering algorithms in DS, utilizing adapted Data Bubbles (DBs). DBs, which originally include internal density estimates , have been modified to operate under the damped window model, with new formulations for their properties based on weighted statistics. Furthermore, we propose a modification to the core distance calculation for DBs, aiming for better alignment with HDBSCAN* principles. The methodology involves integrating these adapted DBs and their revised distance metrics (modified Core Distance and Mutual Reachability Distance) into the HASTREAM algorithm, resulting in HASTREAM-DB. We describe the online maintenance processes for the adapted DBs (including the management of potential and outlier bubbles) and the subsequent offline phase of constructing the cluster hierarchy upon these structures. The objective is to demonstrate that the use of adapted Data Bubbles, by better preserving local spatial and density information, can mitigate the distortions inherent in MC-based summarization, leading to more accurate and robust cluster identification in Data Stream environments.eng
dc.description.resumoO agrupamento de dados em Fluxos de Dados (FD) apresenta desafios devido ao volume, velocidade e natureza evolutiva da informação. Algoritmos hierárquicos baseados em densidade, como o HASTREAM, são promissores para identificar clusters de formas arbitrárias, mas sua eficácia depende crucialmente da qualidade da sumarização online dos dados. A abordagem padrão, utilizando Micro-Clusters (MCs), tende a perder informações sobre a distribuição interna dos dados, distorcendo as estimativas de densidade e impactando negativamente a qualidade do agrupamento final.Este trabalho propõe uma nova abordagem de sumarização para algoritmos de agrupamento hierárquico baseados em densidade em FD, utilizando Data Bubbles (DBs) adaptadas. As DBs, que originalmente incluem estimativas de densidade interna, foram modificadas para operar sob o modelo de janela amortecida, com novas formulações para suas propriedades baseadas em estatísticas ponderadas. Além disso, propomos uma modificação no cálculo da distância core para DBs, visando alinhar-se melhor com os princípios do HDBSCAN*. A metodologia envolve a integração dessas DBs adaptadas e suas métricas de distância revisadas (Distância Core modificada e Distância de Alcançabilidade Mútua) ao algoritmo HASTREAM, resultando no HASTREAM-DB. Descrevemos os processos de manutenção online das DBs adaptadas (incluindo a gestão de bubbles potenciais e outliers) e a subsequente fase offline de construção da hierarquia de clusters sobre essas estruturas. O objetivo é demonstrar que a utilização de Data Bubbles adaptadas, por preservarem melhor a informação espacial e de densidade local, pode mitigar as distorções inerentes à sumarização por MCs, levando a uma identificação de clusters mais precisa e robusta em ambientes de Fluxo de Dados.por
dc.description.sponsorshipNão recebi financiamento
dc.identifier.citationNUNES, Bruno Leonel. Data bubbles para algoritmos de fluxo de dados hierárquicos baseados em densidade. 2025. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23573.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/23573
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.courseEngenharia de Computação - EC
dc.publisher.initialsUFSCar
dc.rightsAttribution 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.subjectSumarização de dadospor
dc.subjectData bubblespor
dc.subjectFluxo de dadospor
dc.subjectAgrupamento baseado em densidadepor
dc.subjectAgrupamento hierárquicopor
dc.subjectHASTREAMpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
dc.subject.ods9. Indústria, Inovação e Infraestrutura
dc.titleData bubbles para algoritmos de fluxo de dados hierárquicos baseados em densidadepor
dc.title.alternativeData bubbles for density-based hierarchical data flow algorithmseng
dc.typeTCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCC_Bruno_Leonel_Revisado.pdf
Tamanho:
1.75 MB
Formato:
Adobe Portable Document Format

Coleções