Eficientes modelos de múltiplas densidades para o aprendizado em grandes conjuntos e fluxo de dados

dc.contributor.advisor1Naldi, Murilo Coelho
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0573662728816861por
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-3107-8236por
dc.contributor.authorBatista, Natanael Fabrício Dacioli
dc.contributor.authorlatteshttp://lattes.cnpq.br/9165030197419025por
dc.contributor.authororcidhttps://orcid.org/0009-0004-8489-5899por
dc.date.accessioned2024-07-18T13:18:42Z
dc.date.available2024-07-18T13:18:42Z
dc.date.issued2024-04-23
dc.description.abstractUnsupervised and semi-supervised machine learning prove highly beneficial in data-intensive contexts. Density-based hierarchical clustering offers a comprehensive insight into cluster and outlier structures within datasets through density functions. These algorithms establish a hierarchy derived from a minimal spanning tree, where the edges represent the maximum density required for connected data to delineate clusters, contingent upon a minimum object count, denoted as MinPts, within a given neighborhood. CORE-SG, an advanced spanning graph, efficiently generates multiple hierarchical solutions with varying densities, surpassing its predecessors in computational performance. Nonetheless, density-based algorithms necessitate pairwise similarity calculations, resulting in an asymptotic complexity of O(n^2) for datasets containing n objects, rendering them impractical for scenarios involving extensive data volumes. This study introduces hierarchical machine learning models based on density, aiming to alleviate computational costs with the help of Data Bubbles, focusing on clustering and outlier detection. It examines the impact of data summarization on the quality of unsupervised models with multiple densities and the gain in computational performance. The research ensures scalability across various machine learning methods grounded in these models, facilitating the handling of massive data volumes without a significant loss in the resulting quality. We propose the application of the multiple hierarchies method with Data Bubbles in density-based clustering models in data streams. We provide scalability for several machine learning methods based on these models where data is infinite and needs to be processed in real time, in addition to generating better clustering quality.eng
dc.description.resumoO aprendizado de máquina não supervisionado e semi-supervisionado é altamente benéfico em contextos com uso intensivo de dados. O agrupamento hierárquico baseado em densidade oferece uma visão abrangente das estruturas de clusters e de valores discrepantes em conjuntos de dados por meio de funções de densidade. Estes algoritmos estabelecem uma hierarquia derivada de uma Árvore Geradora Mínima, onde as arestas representam a densidade máxima necessária para que os dados conectados delineiem clusters, dependendo de uma contagem mínima de objetos, denotada como MinPts, dentro de uma determinada vizinhança. CORE-SG, um gráfico abrangente avançado, gera com eficiência múltiplas soluções hierárquicas com densidades variadas, superando seus antecessores em desempenho computacional. No entanto, algoritmos baseados em densidade necessitam de cálculos de similaridade entre pares, resultando em uma complexidade assintótica de O(n^2) para bases de dados contendo n objetos, tornando-os impraticáveis para cenários que envolvem grandes volumes de dados. Este estudo apresenta modelos hierárquicos de aprendizado de máquina baseados em densidade, visando aliviar custos computacionais com o auxílio de Data Bubbles, com foco em agrupamento e detecção de outliers. Examina o impacto da sumarização de dados na qualidade de modelos não supervisionados com múltiplas densidades e o ganho em desempenho computacional. A pesquisa garante escalabilidade entre vários métodos de aprendizado de máquina baseados nesses modelos, facilitando o manuseio de grandes volumes de dados sem perda significativa na qualidade resultante. Propomos a aplicação do método de múltiplas hierarquias com Data Bubbles em modelos de agrupamento hierárquicos baseados em densidade em fluxos de dados. A pesquisa garante escalabilidade para diversos métodos de aprendizado de máquina baseados nesses modelos onde os dados são infinitos e precisam ser processados em tempo real, além de gerar melhor qualidade do agrupamento.por
dc.description.sponsorshipConselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)por
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.description.sponsorshipId12/2020 - Programa de Mestrado e Doutorado Acadêmico para Inovação - MAI/DAIpor
dc.description.sponsorshipId80/2021 - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes)por
dc.identifier.citationBATISTA, Natanael Fabrício Dacioli. Eficientes modelos de múltiplas densidades para o aprendizado em grandes conjuntos e fluxo de dados. 2024. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20102.por
dc.identifier.urihttps://repositorio.ufscar.br/handle/20.500.14289/20102
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.publisher.addressCampus São Carlospor
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCCpor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectModelos de dados baseados em densidadepor
dc.subjectAprendizagem não supervisionadapor
dc.subjectAgrupamentopor
dc.subjectSumarização de dadospor
dc.subjectBig datapor
dc.subjectFluxo de dadospor
dc.subjectDensity-based data modelseng
dc.subjectUnsupervised learningeng
dc.subjectClusteringeng
dc.subjectData sumarizationeng
dc.subjectData streameng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpor
dc.titleEficientes modelos de múltiplas densidades para o aprendizado em grandes conjuntos e fluxo de dadospor
dc.title.alternativeEfficient multi-density models for learning on large datasets and data streameng
dc.title.alternativeModelos eficientes de densidad múltiple para el aprendizaje sobre grandes conjuntos de datos y flujos de datosspa
dc.title.alternativeModèles multi-densité efficaces pour l'apprentissage sur de grands ensembles de données et flux de donnéesfre
dc.title.alternative用於學習大型資料集和資料流的高效多密度模型chi
dc.title.alternativeबड़े डेटासेट और डेटा स्ट्रीम पर सीखने के लिए कुशल बहु-घनत्व मॉडलind
dc.typeDissertaçãopor

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
dissertação_tese_final_PPGCC___Discente_Natanael_Orietador_Murilo.pdf
Tamanho:
10.55 MB
Formato:
Adobe Portable Document Format
Descrição:
"Dissertação de Mestrado"