dc.contributor.author | Schick, Leonardo | |
dc.date.accessioned | 2019-07-19T17:39:57Z | |
dc.date.available | 2019-07-19T17:39:57Z | |
dc.date.issued | 2019-02-26 | |
dc.identifier.citation | SCHICK, Leonardo. Distributed d-fuzzstream: agrupamento fuzzy não supervisionado distribuído em fluxo de dados. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11543. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/11543 | |
dc.description.abstract | In the last decade, the interest in managing unlimited sequences of data produced at high rates, known as data stream (DS), has grown. Applications of DSs include sensor networks, weather analysis, stock market analysis, network traffic monitoring, among others. As in other data domains, there is an interest in extracting useful knowledge from DS using automatic techniques. However, extracting potentially relevant information in this domain requires techniques that can overcome storage constraints and that can conduct a continuous learning process, adapting to changes in data distribution. One of the great challenges in DS learning is the ability to adapt to the data production rate, avoiding the accumulation of non-processed examples and ensuring real-time responses. If the production of new examples is faster than the processing speed, then the data accumulate continuously and are often discarded, making the learning of new concepts outdated. Recently, with the popularization of distributed computing tools, many machine learning algorithms have been adapted to be executed in a distributed manner. Despite this, most of these algorithms are adaptations of classical machine learning algorithms to handle large volumes of data. Therefore, there is a lack of algorithms for learning from DS that can be executed distributedly, mostly in the context of unsupervised learning. This work presents a new distributed approach to fuzzy clustering in data stream using the Framework Online-Offline. The approach includes two different processing strategies for each of the phases of the framework. The online phase's strategy summarizes data in distinct summary structures, which are unified by an intermediate phase. In the offline phase, the distributed processing strategy groups the result generated by the unified summary structure with several algorithms and different number of groups. A total of 135 experiments were conducted on 6 databases with a large number of examples, including four synthetic and two real data sets, from which internal, external and performance metrics were collected. The results showed that the distributed approach generated clustering results similar to those generated without the approach, processing on average 18,200 examples per second. This shows that the proposal is relevant because it was able to generate similar partitions using only 6% of the processing time compared to the non-distributed version. | eng |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | por |
dc.language.iso | por | por |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights.uri | Acesso aberto | por |
dc.subject | Fluxo de dados | por |
dc.subject | Agrupamento de dados | por |
dc.subject | Teoria de conjuntos Fuzzy | por |
dc.subject | Framework online-offline | por |
dc.subject | Sistemas distribuídos | por |
dc.subject | Computação distribuída | por |
dc.subject | Data stream | eng |
dc.subject | Data clustering | eng |
dc.subject | Fuzzy sets theory | eng |
dc.subject | Online-offline framework | eng |
dc.subject | Distributed systems | eng |
dc.subject | Distributed computing | eng |
dc.title | Distributed d-fuzzstream: agrupamento fuzzy não supervisionado distribuído em fluxo de dados | por |
dc.title.alternative | Distributed d-fuzzstream: distributed unsupervised fuzzy clustering for data streams | eng |
dc.type | Dissertação | por |
dc.contributor.advisor1 | Camargo, Heloisa de Arruda | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/0487231065057783 | por |
dc.description.resumo | Na última década cresceu o interesse em gerenciar sequências ilimitadas de dados que são produzidas em altas taxas. Estas sequências, conhecidas como fluxo de dados (FD), possuem diversas aplicações como redes de sensores, análises meteorológicas, análises da bolsa de valores, monitoramento de tráfego de redes, entre outras. Como ocorre com outros domínios de dados, existe interesse na extração de conhecimento útil de FDs a partir de modelos e algoritmos de aprendizado. Entretanto, extrair potenciais informações relevantes nesse domínio exige técnicas que se adaptam às mudanças na distribuição dos dados sem necessitar armazenar todo conjunto de dados. Um dos grandes desafios no aprendizado em FD é a capacidade de se adaptar à velocidade de produção dos dados, evitando o acúmulo de exemplos sem processamento e garantindo respostas em tempo real. Se a velocidade de produção de novos exemplos for maior que a velocidade de processamento, os dados se acumulam continuamente, e começam a ser descartados, tornando o aprendizado cada vez mais defasado. Recentemente, com a popularização de ferramentas de computação distribuída, muitos algoritmos de aprendizado de máquina foram adaptados para serem executados de forma distribuída. Apesar disso, grande parte desses algoritmos são adaptações de algoritmos de aprendizado de máquina tradicionais para lidar com grandes volumes de dados. Assim, existe uma carência de algoritmos para aprendizado em FD que possam ser executados de forma distribuída, principalmente no âmbito de aprendizado não supervisionado. Este trabalho apresenta uma nova abordagem distribuída para agrupamento fuzzy em fluxo de dados utilizando o Framework Online-Offline. Esta abordagem inclui duas estratégias de processamento diferentes para cada uma das fases do framework. A estratégia da fase online sumariza os dados distribuidamente em estruturas de sumarização distintas, que são unificadas por uma fase intermediária. Já na fase offline, a estratégia de processamento distribuído agrupa o resultado gerado pela estrutura de sumarização unificada com diversos algoritmos e números de grupos diferentes. Foram conduzidos 135 experimentos em seis bases de dados com grande quantidade de exemplos, sendo quatro sintéticas e duas reais, de onde foram coletadas métricas internas, externas e métricas de desempenho. Os resultados mostraram que a abordagem distribuída gerou agrupamentos similares aos gerados sem a abordagem, processando em média 18.200 exemplos por segundo. Isso mostra que a proposta é relevante pois conseguiu gerar agrupamentos similares em apenas 6% do tempo de processamento da versão sequencial. | por |
dc.publisher.initials | UFSCar | por |
dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | por |
dc.ufscar.embargo | Online | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/8533489408675086 | por |