Eficientes modelos de múltiplas densidades para o aprendizado em grandes conjuntos e fluxo de dados
| dc.contributor.advisor1 | Naldi, Murilo Coelho | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/0573662728816861 | por |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0002-3107-8236 | por |
| dc.contributor.author | Batista, Natanael Fabrício Dacioli | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/9165030197419025 | por |
| dc.contributor.authororcid | https://orcid.org/0009-0004-8489-5899 | por |
| dc.date.accessioned | 2024-07-18T13:18:42Z | |
| dc.date.available | 2024-07-18T13:18:42Z | |
| dc.date.issued | 2024-04-23 | |
| dc.description.abstract | Unsupervised and semi-supervised machine learning prove highly beneficial in data-intensive contexts. Density-based hierarchical clustering offers a comprehensive insight into cluster and outlier structures within datasets through density functions. These algorithms establish a hierarchy derived from a minimal spanning tree, where the edges represent the maximum density required for connected data to delineate clusters, contingent upon a minimum object count, denoted as MinPts, within a given neighborhood. CORE-SG, an advanced spanning graph, efficiently generates multiple hierarchical solutions with varying densities, surpassing its predecessors in computational performance. Nonetheless, density-based algorithms necessitate pairwise similarity calculations, resulting in an asymptotic complexity of O(n^2) for datasets containing n objects, rendering them impractical for scenarios involving extensive data volumes. This study introduces hierarchical machine learning models based on density, aiming to alleviate computational costs with the help of Data Bubbles, focusing on clustering and outlier detection. It examines the impact of data summarization on the quality of unsupervised models with multiple densities and the gain in computational performance. The research ensures scalability across various machine learning methods grounded in these models, facilitating the handling of massive data volumes without a significant loss in the resulting quality. We propose the application of the multiple hierarchies method with Data Bubbles in density-based clustering models in data streams. We provide scalability for several machine learning methods based on these models where data is infinite and needs to be processed in real time, in addition to generating better clustering quality. | eng |
| dc.description.resumo | O aprendizado de máquina não supervisionado e semi-supervisionado é altamente benéfico em contextos com uso intensivo de dados. O agrupamento hierárquico baseado em densidade oferece uma visão abrangente das estruturas de clusters e de valores discrepantes em conjuntos de dados por meio de funções de densidade. Estes algoritmos estabelecem uma hierarquia derivada de uma Árvore Geradora Mínima, onde as arestas representam a densidade máxima necessária para que os dados conectados delineiem clusters, dependendo de uma contagem mínima de objetos, denotada como MinPts, dentro de uma determinada vizinhança. CORE-SG, um gráfico abrangente avançado, gera com eficiência múltiplas soluções hierárquicas com densidades variadas, superando seus antecessores em desempenho computacional. No entanto, algoritmos baseados em densidade necessitam de cálculos de similaridade entre pares, resultando em uma complexidade assintótica de O(n^2) para bases de dados contendo n objetos, tornando-os impraticáveis para cenários que envolvem grandes volumes de dados. Este estudo apresenta modelos hierárquicos de aprendizado de máquina baseados em densidade, visando aliviar custos computacionais com o auxílio de Data Bubbles, com foco em agrupamento e detecção de outliers. Examina o impacto da sumarização de dados na qualidade de modelos não supervisionados com múltiplas densidades e o ganho em desempenho computacional. A pesquisa garante escalabilidade entre vários métodos de aprendizado de máquina baseados nesses modelos, facilitando o manuseio de grandes volumes de dados sem perda significativa na qualidade resultante. Propomos a aplicação do método de múltiplas hierarquias com Data Bubbles em modelos de agrupamento hierárquicos baseados em densidade em fluxos de dados. A pesquisa garante escalabilidade para diversos métodos de aprendizado de máquina baseados nesses modelos onde os dados são infinitos e precisam ser processados em tempo real, além de gerar melhor qualidade do agrupamento. | por |
| dc.description.sponsorship | Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) | por |
| dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | por |
| dc.description.sponsorshipId | 12/2020 - Programa de Mestrado e Doutorado Acadêmico para Inovação - MAI/DAI | por |
| dc.description.sponsorshipId | 80/2021 - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes) | por |
| dc.identifier.citation | BATISTA, Natanael Fabrício Dacioli. Eficientes modelos de múltiplas densidades para o aprendizado em grandes conjuntos e fluxo de dados. 2024. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20102. | por |
| dc.identifier.uri | https://repositorio.ufscar.br/handle/20.500.14289/20102 | |
| dc.language.iso | por | por |
| dc.publisher | Universidade Federal de São Carlos | por |
| dc.publisher.address | Campus São Carlos | por |
| dc.publisher.initials | UFSCar | por |
| dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC | por |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
| dc.subject | Modelos de dados baseados em densidade | por |
| dc.subject | Aprendizagem não supervisionada | por |
| dc.subject | Agrupamento | por |
| dc.subject | Sumarização de dados | por |
| dc.subject | Big data | por |
| dc.subject | Fluxo de dados | por |
| dc.subject | Density-based data models | eng |
| dc.subject | Unsupervised learning | eng |
| dc.subject | Clustering | eng |
| dc.subject | Data sumarization | eng |
| dc.subject | Data stream | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | por |
| dc.title | Eficientes modelos de múltiplas densidades para o aprendizado em grandes conjuntos e fluxo de dados | por |
| dc.title.alternative | Efficient multi-density models for learning on large datasets and data stream | eng |
| dc.title.alternative | Modelos eficientes de densidad múltiple para el aprendizaje sobre grandes conjuntos de datos y flujos de datos | spa |
| dc.title.alternative | Modèles multi-densité efficaces pour l'apprentissage sur de grands ensembles de données et flux de données | fre |
| dc.title.alternative | 用於學習大型資料集和資料流的高效多密度模型 | chi |
| dc.title.alternative | बड़े डेटासेट और डेटा स्ट्रीम पर सीखने के लिए कुशल बहु-घनत्व मॉडल | ind |
| dc.type | Dissertação | por |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- dissertação_tese_final_PPGCC___Discente_Natanael_Orietador_Murilo.pdf
- Tamanho:
- 10.55 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
- "Dissertação de Mestrado"