Obtenção de padrões sequenciais em data streams atendendo requisitos do Big Data

Carvalho, Danilo Codeco

dc.contributor.author	Carvalho, Danilo Codeco
dc.date.accessioned	2016-11-08T18:42:49Z
dc.date.available	2016-11-08T18:42:49Z
dc.date.issued	2016-06-06
dc.identifier.citation	CARVALHO, Danilo Codeco. Obtenção de padrões sequenciais em data streams atendendo requisitos do Big Data. 2016. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2016. Disponível em: https://repositorio.ufscar.br/handle/ufscar/8280.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/8280
dc.description.abstract	The growing amount of data produced daily, by both businesses and individuals in the web, increased the demand for analysis and extraction of knowledge of this data. While the last two decades the solution was to store and perform data mining algorithms, currently it has become unviable even to supercomputers. In addition, the requirements of the Big Data age go far beyond the large amount of data to analyze. Response time requirements and complexity of the data acquire more weight in many areas in the real world. New models have been researched and developed, often proposing distributed computing or different ways to handle the data stream mining. Current researches shows that an alternative in the data stream mining is to join a real-time event handling mechanism with a classic mining association rules or sequential patterns algorithms. In this work is shown a data stream mining approach to meet the Big Data response time requirement, linking the event handling mechanism in real time Esper and Incremental Miner of Stretchy Time Sequences (IncMSTS) algorithm. The results show that is possible to take a static data mining algorithm for data stream environment and keep tendency in the patterns, although not possible to continuously read all data coming into the data stream.	eng
dc.description.sponsorship	Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights.uri	Acesso aberto	por
dc.subject	Mineração de dados	por
dc.subject	Mineração no Big Data	por
dc.subject	Mineração de data streams	por
dc.subject	Mineração em fluxos de dados	por
dc.subject	Processamento de eventos complexos	por
dc.subject	Data mining	eng
dc.subject	Mining Big Data	eng
dc.subject	Data stream mining	eng
dc.subject	Complex event processing	eng
dc.subject	Sliding window	eng
dc.subject	Sequential pattern mining	eng
dc.subject	Association rule mining	eng
dc.title	Obtenção de padrões sequenciais em data streams atendendo requisitos do Big Data	por
dc.type	Dissertação	por
dc.contributor.advisor1	Santos, Marilde Terezinha Prado
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/9826026025118073	por
dc.description.resumo	O crescimento da quantidade de dados produzidos diariamente, tanto por empresas como por indivíduos na web, aumentou a exigência para a análise e extração de conhecimento sobre esses dados. Enquanto nas duas últimas décadas a solução era armazenar e executar algoritmos de mineração de dados, atualmente isso se tornou inviável mesmo em super computadores. Além disso, os requisitos da chamada era do Big Data vão muito além da grande quantidade de dados a se analisar. Requisitos de tempo de resposta e complexidade dos dados adquirem maior peso em muitos domínios no mundo real. Novos modelos têm sido pesquisados e desenvolvidos, muitas vezes propondo computação distribuída ou diferentes formas de se tratar a mineração de fluxo de dados. Pesquisas atuais mostram que uma alternativa na mineração de fluxo de dados é unir um mecanismo de tratamento de eventos em tempo real com algoritmos clássicos de mineração de regras de associação ou padrões sequenciais. Neste trabalho é mostrada uma abordagem de mineração de fluxo de dados (data stream) para atender ao requisito de tempo de resposta do Big Data, que une o mecanismo de manipulação de eventos em tempo real Esper e o algoritmo Incremental Miner of Stretchy Time Sequences (IncMSTS). Os resultados mostram ser possível levar um algoritmo de mineração de dados estático para o ambiente de fluxo de dados e manter as tendências de padrões encontrados, mesmo não sendo possível ler todos os dados vindos continuamente no fluxo de dados.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA	por
dc.ufscar.embargo	Online	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/2824991715613370	por

Files in this item

Name:: DissDCC.pdf
Size:: 2.309Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Teses e dissertações

Show simple item record