Eficientes modelos de múltiplas densidades para o aprendizado em grandes conjuntos e fluxo de dados

Batista, Natanael Fabrício Dacioli

Eficientes modelos de múltiplas densidades para o aprendizado em grandes conjuntos e fluxo de dados

dc.contributor.advisor1	Naldi, Murilo Coelho
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/0573662728816861	por
dc.contributor.advisor1orcid	https://orcid.org/0000-0002-3107-8236	por
dc.contributor.author	Batista, Natanael Fabrício Dacioli
dc.contributor.authorlattes	https://lattes.cnpq.br/9165030197419025	por
dc.contributor.authororcid	https://orcid.org/0009-0004-8489-5899	por
dc.date.accessioned	2024-07-18T13:18:42Z
dc.date.available	2024-07-18T13:18:42Z
dc.date.issued	2024-04-23
dc.description.abstract	Unsupervised and semi-supervised machine learning prove highly beneficial in data-intensive contexts. Density-based hierarchical clustering offers a comprehensive insight into cluster and outlier structures within datasets through density functions. These algorithms establish a hierarchy derived from a minimal spanning tree, where the edges represent the maximum density required for connected data to delineate clusters, contingent upon a minimum object count, denoted as MinPts, within a given neighborhood. CORE-SG, an advanced spanning graph, efficiently generates multiple hierarchical solutions with varying densities, surpassing its predecessors in computational performance. Nonetheless, density-based algorithms necessitate pairwise similarity calculations, resulting in an asymptotic complexity of O(n^2) for datasets containing n objects, rendering them impractical for scenarios involving extensive data volumes. This study introduces hierarchical machine learning models based on density, aiming to alleviate computational costs with the help of Data Bubbles, focusing on clustering and outlier detection. It examines the impact of data summarization on the quality of unsupervised models with multiple densities and the gain in computational performance. The research ensures scalability across various machine learning methods grounded in these models, facilitating the handling of massive data volumes without a significant loss in the resulting quality. We propose the application of the multiple hierarchies method with Data Bubbles in density-based clustering models in data streams. We provide scalability for several machine learning methods based on these models where data is infinite and needs to be processed in real time, in addition to generating better clustering quality.	eng
dc.description.resumo	O aprendizado de máquina não supervisionado e semi-supervisionado é altamente benéfico em contextos com uso intensivo de dados. O agrupamento hierárquico baseado em densidade oferece uma visão abrangente das estruturas de clusters e de valores discrepantes em conjuntos de dados por meio de funções de densidade. Estes algoritmos estabelecem uma hierarquia derivada de uma Árvore Geradora Mínima, onde as arestas representam a densidade máxima necessária para que os dados conectados delineiem clusters, dependendo de uma contagem mínima de objetos, denotada como MinPts, dentro de uma determinada vizinhança. CORE-SG, um gráfico abrangente avançado, gera com eficiência múltiplas soluções hierárquicas com densidades variadas, superando seus antecessores em desempenho computacional. No entanto, algoritmos baseados em densidade necessitam de cálculos de similaridade entre pares, resultando em uma complexidade assintótica de O(n^2) para bases de dados contendo n objetos, tornando-os impraticáveis para cenários que envolvem grandes volumes de dados. Este estudo apresenta modelos hierárquicos de aprendizado de máquina baseados em densidade, visando aliviar custos computacionais com o auxílio de Data Bubbles, com foco em agrupamento e detecção de outliers. Examina o impacto da sumarização de dados na qualidade de modelos não supervisionados com múltiplas densidades e o ganho em desempenho computacional. A pesquisa garante escalabilidade entre vários métodos de aprendizado de máquina baseados nesses modelos, facilitando o manuseio de grandes volumes de dados sem perda significativa na qualidade resultante. Propomos a aplicação do método de múltiplas hierarquias com Data Bubbles em modelos de agrupamento hierárquicos baseados em densidade em fluxos de dados. A pesquisa garante escalabilidade para diversos métodos de aprendizado de máquina baseados nesses modelos onde os dados são infinitos e precisam ser processados em tempo real, além de gerar melhor qualidade do agrupamento.	por
dc.description.sponsorship	Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)	por
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)	por
dc.description.sponsorshipId	12/2020 - Programa de Mestrado e Doutorado Acadêmico para Inovação - MAI/DAI	por
dc.description.sponsorshipId	80/2021 - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes)	por
dc.identifier.citation	BATISTA, Natanael Fabrício Dacioli. Eficientes modelos de múltiplas densidades para o aprendizado em grandes conjuntos e fluxo de dados. 2024. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20102.	por
dc.identifier.uri	https://repositorio.ufscar.br/handle/20.500.14289/20102
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.publisher.address	Campus São Carlos	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Modelos de dados baseados em densidade	por
dc.subject	Aprendizagem não supervisionada	por
dc.subject	Agrupamento	por
dc.subject	Sumarização de dados	por
dc.subject	Big data	por
dc.subject	Fluxo de dados	por
dc.subject	Density-based data models	eng
dc.subject	Unsupervised learning	eng
dc.subject	Clustering	eng
dc.subject	Data sumarization	eng
dc.subject	Data stream	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO	por
dc.title	Eficientes modelos de múltiplas densidades para o aprendizado em grandes conjuntos e fluxo de dados	por
dc.title.alternative	Efficient multi-density models for learning on large datasets and data stream	eng
dc.title.alternative	Modelos eficientes de densidad múltiple para el aprendizaje sobre grandes conjuntos de datos y flujos de datos	spa
dc.title.alternative	Modèles multi-densité efficaces pour l'apprentissage sur de grands ensembles de données et flux de données	fre
dc.title.alternative	用於學習大型資料集和資料流的高效多密度模型	chi
dc.title.alternative	बड़े डेटासेट और डेटा स्ट्रीम पर सीखने के लिए कुशल बहु-घनत्व मॉडल	ind
dc.type	Dissertação	por

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: dissertação_tese_final_PPGCC___Discente_Natanael_Orietador_Murilo.pdf
Tamanho:: 10.55 MB
Formato:: Adobe Portable Document Format
Descrição:: "Dissertação de Mestrado"

Baixar

Coleções

Teses e Dissertações