Distributed d-fuzzstream: agrupamento fuzzy não supervisionado distribuído em fluxo de dados

Schick, Leonardo

dc.contributor.author	Schick, Leonardo
dc.date.accessioned	2019-07-19T17:39:57Z
dc.date.available	2019-07-19T17:39:57Z
dc.date.issued	2019-02-26
dc.identifier.citation	SCHICK, Leonardo. Distributed d-fuzzstream: agrupamento fuzzy não supervisionado distribuído em fluxo de dados. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11543.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/11543
dc.description.abstract	In the last decade, the interest in managing unlimited sequences of data produced at high rates, known as data stream (DS), has grown. Applications of DSs include sensor networks, weather analysis, stock market analysis, network traffic monitoring, among others. As in other data domains, there is an interest in extracting useful knowledge from DS using automatic techniques. However, extracting potentially relevant information in this domain requires techniques that can overcome storage constraints and that can conduct a continuous learning process, adapting to changes in data distribution. One of the great challenges in DS learning is the ability to adapt to the data production rate, avoiding the accumulation of non-processed examples and ensuring real-time responses. If the production of new examples is faster than the processing speed, then the data accumulate continuously and are often discarded, making the learning of new concepts outdated. Recently, with the popularization of distributed computing tools, many machine learning algorithms have been adapted to be executed in a distributed manner. Despite this, most of these algorithms are adaptations of classical machine learning algorithms to handle large volumes of data. Therefore, there is a lack of algorithms for learning from DS that can be executed distributedly, mostly in the context of unsupervised learning. This work presents a new distributed approach to fuzzy clustering in data stream using the Framework Online-Offline. The approach includes two different processing strategies for each of the phases of the framework. The online phase's strategy summarizes data in distinct summary structures, which are unified by an intermediate phase. In the offline phase, the distributed processing strategy groups the result generated by the unified summary structure with several algorithms and different number of groups. A total of 135 experiments were conducted on 6 databases with a large number of examples, including four synthetic and two real data sets, from which internal, external and performance metrics were collected. The results showed that the distributed approach generated clustering results similar to those generated without the approach, processing on average 18,200 examples per second. This shows that the proposal is relevant because it was able to generate similar partitions using only 6% of the processing time compared to the non-distributed version.	eng
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights.uri	Acesso aberto	por
dc.subject	Fluxo de dados	por
dc.subject	Agrupamento de dados	por
dc.subject	Teoria de conjuntos Fuzzy	por
dc.subject	Framework online-offline	por
dc.subject	Sistemas distribuídos	por
dc.subject	Computação distribuída	por
dc.subject	Data stream	eng
dc.subject	Data clustering	eng
dc.subject	Fuzzy sets theory	eng
dc.subject	Online-offline framework	eng
dc.subject	Distributed systems	eng
dc.subject	Distributed computing	eng
dc.title	Distributed d-fuzzstream: agrupamento fuzzy não supervisionado distribuído em fluxo de dados	por
dc.title.alternative	Distributed d-fuzzstream: distributed unsupervised fuzzy clustering for data streams	eng
dc.type	Dissertação	por
dc.contributor.advisor1	Camargo, Heloisa de Arruda
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/0487231065057783	por
dc.description.resumo	Na última década cresceu o interesse em gerenciar sequências ilimitadas de dados que são produzidas em altas taxas. Estas sequências, conhecidas como fluxo de dados (FD), possuem diversas aplicações como redes de sensores, análises meteorológicas, análises da bolsa de valores, monitoramento de tráfego de redes, entre outras. Como ocorre com outros domínios de dados, existe interesse na extração de conhecimento útil de FDs a partir de modelos e algoritmos de aprendizado. Entretanto, extrair potenciais informações relevantes nesse domínio exige técnicas que se adaptam às mudanças na distribuição dos dados sem necessitar armazenar todo conjunto de dados. Um dos grandes desafios no aprendizado em FD é a capacidade de se adaptar à velocidade de produção dos dados, evitando o acúmulo de exemplos sem processamento e garantindo respostas em tempo real. Se a velocidade de produção de novos exemplos for maior que a velocidade de processamento, os dados se acumulam continuamente, e começam a ser descartados, tornando o aprendizado cada vez mais defasado. Recentemente, com a popularização de ferramentas de computação distribuída, muitos algoritmos de aprendizado de máquina foram adaptados para serem executados de forma distribuída. Apesar disso, grande parte desses algoritmos são adaptações de algoritmos de aprendizado de máquina tradicionais para lidar com grandes volumes de dados. Assim, existe uma carência de algoritmos para aprendizado em FD que possam ser executados de forma distribuída, principalmente no âmbito de aprendizado não supervisionado. Este trabalho apresenta uma nova abordagem distribuída para agrupamento fuzzy em fluxo de dados utilizando o Framework Online-Offline. Esta abordagem inclui duas estratégias de processamento diferentes para cada uma das fases do framework. A estratégia da fase online sumariza os dados distribuidamente em estruturas de sumarização distintas, que são unificadas por uma fase intermediária. Já na fase offline, a estratégia de processamento distribuído agrupa o resultado gerado pela estrutura de sumarização unificada com diversos algoritmos e números de grupos diferentes. Foram conduzidos 135 experimentos em seis bases de dados com grande quantidade de exemplos, sendo quatro sintéticas e duas reais, de onde foram coletadas métricas internas, externas e métricas de desempenho. Os resultados mostraram que a abordagem distribuída gerou agrupamentos similares aos gerados sem a abordagem, processando em média 18.200 exemplos por segundo. Isso mostra que a proposta é relevante pois conseguiu gerar agrupamentos similares em apenas 6% do tempo de processamento da versão sequencial.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO	por
dc.ufscar.embargo	Online	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/8533489408675086	por

Files in this item

Name:: Distributed_d-FuzzStream_Agrup ...
Size:: 5.298Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Teses e dissertações

Show simple item record