dc.contributor.author | Costa Júnior, Joel David | |
dc.date.accessioned | 2020-01-30T18:10:32Z | |
dc.date.available | 2020-01-30T18:10:32Z | |
dc.date.issued | 2019-07-29 | |
dc.identifier.citation | COSTA JÚNIOR, Joel David. Detecção de novidade em fluxos contínuos de dados multirrótulo. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12197. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/12197 | |
dc.description.abstract | Multi-label Stream Classification (MLSC) aims at classifying streaming examples into multiple classes simultaneously. It is a very challenging task, since new classes may emerge (concept evolution), and known classes may change over the stream (concept drift. Most of classifier methods deal with the aforementioned characteristics updating their models when actuals labels of examples become available, it is a very optimistic scenario though, since for many data streams application these labels are never available, hence is unfeasible to update models in a supervised fashion. This is known as infinitely delayed labels problems and a task that has been stood out for dealing with it, is the Novelty Detection (ND). ND aims at detecting new patterns in arriving streaming examples that, in some aspect, might differ from the previously observed patterns and then used for updating the decision models. Despite different ND procedures have been proposed in the literature, it is still an open problem for MLSC. In this work we proposed two new methods: the MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) which applies ND to deal exclusively with concept drifts and the MultIlabel
learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) which applies ND to deal with both concept drifts and concept evolution either. The methods address problem transformation techniques to deal with multi-labelled data at the offline phase and build micro-clusters based decision models. At the online phase the arrival examples are classified or rejected (labelled as unknown) by the current decision models. Rejected examples are used in ND phase to shape new micro-clusters, maintaining the decision models updated. The ND phase is run from time to time to work around concept drifts and concept evolution. Experiments over synthetic and real-world data sets with different degrees of concept drift and concept evolution attested the potential of MINAS-BR and MINAS-LC, in which have obtained significant results when compared to baseline methods. | eng |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | por |
dc.description.sponsorship | Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP) | por |
dc.language.iso | por | por |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Classificação multirrótulo | por |
dc.subject | Detecção de novidade | por |
dc.subject | Fluxos contínuos de dados | por |
dc.subject | Latência extrema de rótulos | por |
dc.subject | Data stream | eng |
dc.subject | Infinitely delayed labels | eng |
dc.subject | Multilabel classification | eng |
dc.subject | Novelty detection | eng |
dc.title | Detecção de novidade em fluxos contínuos de dados multirrótulo | por |
dc.title.alternative | Novelty detection in multi-label data streams | eng |
dc.type | Dissertação | por |
dc.contributor.advisor1 | Cerri, Ricardo | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/6266519868438512 | por |
dc.description.resumo | Classificação Multirrótulo em Fluxos Contínuos de Dados (CMFCD) é a tarefa de classificar exemplos de fluxos de dados em várias classes simultaneamente. Essa é uma tarefa desafiadora pelas características presentes nos Fluxo Contínuo de Dados (FCD), especialmente em relação a potencial distribuição não-estacionária dos dados, em que novas classes podem surgir (Evoluções de Conceito) e classes conhecidas podem mudar ao longo do tempo (Mudanças de Conceito). Apesar dos diversos trabalhos propostos para CMFCD, a maioria assume a disponibilidade dos rótulos reais dos exemplos para atualização dos métodos. No entanto, esse é um cenário irreal, visto que muitas aplicações reais possuem Latência Extrema de Rótulos, problema no qual é inviável acessar os rótulos reais dos exemplos. Uma tarefa que têm se destacado ao lidar com esses
problemas é a Detecção de Novidade (DN). Em FCDs, a tarefa de DN consiste em identificar novos padrões em exemplos não rotulados dos fluxos de dados. Em alguns aspectos, esses padrões podem divergir dos exemplos observados e podem ser usados para atualizar os modelos de decisão. Apesar da gama de trabalhos que abordam o uso de DN em FCDs, essa é uma técnica pouco explorada para problemas de CM. Este trabalho propõem dois novos métodos: o MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) que aplica DN exclusivamente para tratar mudanças de conceito; e o MultI-label learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) que além de
tratar mudanças de conceito, também é capaz de detectar novas classes ao longo dos fluxos de dados. Na Fase Offline, os métodos propostos constroem modelos de decisão baseados em microgrupos e, na Fase Online, novos exemplos são classificados ou rejeitados (marcados como desconhecidos) pelo modelo de decisão atual. Grupos de exemplos rejeitados podem formar novos padrões válidos e serem usados para atualizar o modelo de decisão. Essa atualização é feita ao longo do fluxo a fim de refletir mudanças e evoluções de conceito. Experimentos realizados com bases de dados reais e sintéticas mostraram que o MINAS-LC alcança resultados competitivos com os métodos da literatura e o MINAS-BR resultados superiores em bases de dados com evoluções de conceito, nas quais as classes emergentes são, na maioria das vezes, detectadas corretamente pelo método. | por |
dc.publisher.initials | UFSCar | por |
dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | por |
dc.description.sponsorshipId | FAPESP: 2017/11513-0 | por |
dc.description.sponsorshipId | FAPESP: 2018/11321-6 | por |
dc.description.sponsorshipId | CAPES: código de financiamento - 001 | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/5293958366030922 | por |