Show simple item record

dc.contributor.authorSchick, Leonardo
dc.date.accessioned2019-07-19T17:39:57Z
dc.date.available2019-07-19T17:39:57Z
dc.date.issued2019-02-26
dc.identifier.citationSCHICK, Leonardo. Distributed d-fuzzstream: agrupamento fuzzy não supervisionado distribuído em fluxo de dados. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11543.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/11543
dc.description.abstractIn the last decade, the interest in managing unlimited sequences of data produced at high rates, known as data stream (DS), has grown. Applications of DSs include sensor networks, weather analysis, stock market analysis, network traffic monitoring, among others. As in other data domains, there is an interest in extracting useful knowledge from DS using automatic techniques. However, extracting potentially relevant information in this domain requires techniques that can overcome storage constraints and that can conduct a continuous learning process, adapting to changes in data distribution. One of the great challenges in DS learning is the ability to adapt to the data production rate, avoiding the accumulation of non-processed examples and ensuring real-time responses. If the production of new examples is faster than the processing speed, then the data accumulate continuously and are often discarded, making the learning of new concepts outdated. Recently, with the popularization of distributed computing tools, many machine learning algorithms have been adapted to be executed in a distributed manner. Despite this, most of these algorithms are adaptations of classical machine learning algorithms to handle large volumes of data. Therefore, there is a lack of algorithms for learning from DS that can be executed distributedly, mostly in the context of unsupervised learning. This work presents a new distributed approach to fuzzy clustering in data stream using the Framework Online-Offline. The approach includes two different processing strategies for each of the phases of the framework. The online phase's strategy summarizes data in distinct summary structures, which are unified by an intermediate phase. In the offline phase, the distributed processing strategy groups the result generated by the unified summary structure with several algorithms and different number of groups. A total of 135 experiments were conducted on 6 databases with a large number of examples, including four synthetic and two real data sets, from which internal, external and performance metrics were collected. The results showed that the distributed approach generated clustering results similar to those generated without the approach, processing on average 18,200 examples per second. This shows that the proposal is relevant because it was able to generate similar partitions using only 6% of the processing time compared to the non-distributed version.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rights.uriAcesso abertopor
dc.subjectFluxo de dadospor
dc.subjectAgrupamento de dadospor
dc.subjectTeoria de conjuntos Fuzzypor
dc.subjectFramework online-offlinepor
dc.subjectSistemas distribuídospor
dc.subjectComputação distribuídapor
dc.subjectData streameng
dc.subjectData clusteringeng
dc.subjectFuzzy sets theoryeng
dc.subjectOnline-offline frameworkeng
dc.subjectDistributed systemseng
dc.subjectDistributed computingeng
dc.titleDistributed d-fuzzstream: agrupamento fuzzy não supervisionado distribuído em fluxo de dadospor
dc.title.alternativeDistributed d-fuzzstream: distributed unsupervised fuzzy clustering for data streamseng
dc.typeDissertaçãopor
dc.contributor.advisor1Camargo, Heloisa de Arruda
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0487231065057783por
dc.description.resumoNa última década cresceu o interesse em gerenciar sequências ilimitadas de dados que são produzidas em altas taxas. Estas sequências, conhecidas como fluxo de dados (FD), possuem diversas aplicações como redes de sensores, análises meteorológicas, análises da bolsa de valores, monitoramento de tráfego de redes, entre outras. Como ocorre com outros domínios de dados, existe interesse na extração de conhecimento útil de FDs a partir de modelos e algoritmos de aprendizado. Entretanto, extrair potenciais informações relevantes nesse domínio exige técnicas que se adaptam às mudanças na distribuição dos dados sem necessitar armazenar todo conjunto de dados. Um dos grandes desafios no aprendizado em FD é a capacidade de se adaptar à velocidade de produção dos dados, evitando o acúmulo de exemplos sem processamento e garantindo respostas em tempo real. Se a velocidade de produção de novos exemplos for maior que a velocidade de processamento, os dados se acumulam continuamente, e começam a ser descartados, tornando o aprendizado cada vez mais defasado. Recentemente, com a popularização de ferramentas de computação distribuída, muitos algoritmos de aprendizado de máquina foram adaptados para serem executados de forma distribuída. Apesar disso, grande parte desses algoritmos são adaptações de algoritmos de aprendizado de máquina tradicionais para lidar com grandes volumes de dados. Assim, existe uma carência de algoritmos para aprendizado em FD que possam ser executados de forma distribuída, principalmente no âmbito de aprendizado não supervisionado. Este trabalho apresenta uma nova abordagem distribuída para agrupamento fuzzy em fluxo de dados utilizando o Framework Online-Offline. Esta abordagem inclui duas estratégias de processamento diferentes para cada uma das fases do framework. A estratégia da fase online sumariza os dados distribuidamente em estruturas de sumarização distintas, que são unificadas por uma fase intermediária. Já na fase offline, a estratégia de processamento distribuído agrupa o resultado gerado pela estrutura de sumarização unificada com diversos algoritmos e números de grupos diferentes. Foram conduzidos 135 experimentos em seis bases de dados com grande quantidade de exemplos, sendo quatro sintéticas e duas reais, de onde foram coletadas métricas internas, externas e métricas de desempenho. Os resultados mostraram que a abordagem distribuída gerou agrupamentos similares aos gerados sem a abordagem, processando em média 18.200 exemplos por segundo. Isso mostra que a proposta é relevante pois conseguiu gerar agrupamentos similares em apenas 6% do tempo de processamento da versão sequencial.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCCpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpor
dc.ufscar.embargoOnlinepor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/8533489408675086por


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record