Data bubbles para algoritmos de fluxo de dados hierárquicos baseados em densidade
| dc.contributor.advisor1 | Naldi, Murilo Coelho | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/0573662728816861 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0002-3107-8236 | |
| dc.contributor.author | Nunes, Bruno Leonel | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/1673892645756438 | |
| dc.date.accessioned | 2026-02-05T18:14:37Z | |
| dc.date.issued | 2025-07-09 | |
| dc.description.abstract | Clustering data in Data Streams (DS) presents challenges due to the volume, velocity, and evolving nature of information. Hierarchical density-based clustering algorithms, such as HASTREAM, are promising for identifying arbitrarily shaped clusters, but their effectiveness critically depends on the quality of online data summarization. The standard approach, using Micro-Clusters (MCs), tends to lose information about the internal data distribution, distorting density estimates and negatively impacting the quality of the final clustering. This work proposes a novel summarization approach for hierarchical density-based clustering algorithms in DS, utilizing adapted Data Bubbles (DBs). DBs, which originally include internal density estimates , have been modified to operate under the damped window model, with new formulations for their properties based on weighted statistics. Furthermore, we propose a modification to the core distance calculation for DBs, aiming for better alignment with HDBSCAN* principles. The methodology involves integrating these adapted DBs and their revised distance metrics (modified Core Distance and Mutual Reachability Distance) into the HASTREAM algorithm, resulting in HASTREAM-DB. We describe the online maintenance processes for the adapted DBs (including the management of potential and outlier bubbles) and the subsequent offline phase of constructing the cluster hierarchy upon these structures. The objective is to demonstrate that the use of adapted Data Bubbles, by better preserving local spatial and density information, can mitigate the distortions inherent in MC-based summarization, leading to more accurate and robust cluster identification in Data Stream environments. | eng |
| dc.description.resumo | O agrupamento de dados em Fluxos de Dados (FD) apresenta desafios devido ao volume, velocidade e natureza evolutiva da informação. Algoritmos hierárquicos baseados em densidade, como o HASTREAM, são promissores para identificar clusters de formas arbitrárias, mas sua eficácia depende crucialmente da qualidade da sumarização online dos dados. A abordagem padrão, utilizando Micro-Clusters (MCs), tende a perder informações sobre a distribuição interna dos dados, distorcendo as estimativas de densidade e impactando negativamente a qualidade do agrupamento final.Este trabalho propõe uma nova abordagem de sumarização para algoritmos de agrupamento hierárquico baseados em densidade em FD, utilizando Data Bubbles (DBs) adaptadas. As DBs, que originalmente incluem estimativas de densidade interna, foram modificadas para operar sob o modelo de janela amortecida, com novas formulações para suas propriedades baseadas em estatísticas ponderadas. Além disso, propomos uma modificação no cálculo da distância core para DBs, visando alinhar-se melhor com os princípios do HDBSCAN*. A metodologia envolve a integração dessas DBs adaptadas e suas métricas de distância revisadas (Distância Core modificada e Distância de Alcançabilidade Mútua) ao algoritmo HASTREAM, resultando no HASTREAM-DB. Descrevemos os processos de manutenção online das DBs adaptadas (incluindo a gestão de bubbles potenciais e outliers) e a subsequente fase offline de construção da hierarquia de clusters sobre essas estruturas. O objetivo é demonstrar que a utilização de Data Bubbles adaptadas, por preservarem melhor a informação espacial e de densidade local, pode mitigar as distorções inerentes à sumarização por MCs, levando a uma identificação de clusters mais precisa e robusta em ambientes de Fluxo de Dados. | por |
| dc.description.sponsorship | Não recebi financiamento | |
| dc.identifier.citation | NUNES, Bruno Leonel. Data bubbles para algoritmos de fluxo de dados hierárquicos baseados em densidade. 2025. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23573. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/23573 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.course | Engenharia de Computação - EC | |
| dc.publisher.initials | UFSCar | |
| dc.rights | Attribution 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | |
| dc.subject | Sumarização de dados | por |
| dc.subject | Data bubbles | por |
| dc.subject | Fluxo de dados | por |
| dc.subject | Agrupamento baseado em densidade | por |
| dc.subject | Agrupamento hierárquico | por |
| dc.subject | HASTREAM | por |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO | |
| dc.subject.ods | 9. Indústria, Inovação e Infraestrutura | |
| dc.title | Data bubbles para algoritmos de fluxo de dados hierárquicos baseados em densidade | por |
| dc.title.alternative | Data bubbles for density-based hierarchical data flow algorithms | eng |
| dc.type | TCC |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- TCC_Bruno_Leonel_Revisado.pdf
- Tamanho:
- 1.75 MB
- Formato:
- Adobe Portable Document Format