Show simple item record

dc.contributor.authorCosta Júnior, Joel David
dc.date.accessioned2020-01-30T18:10:32Z
dc.date.available2020-01-30T18:10:32Z
dc.date.issued2019-07-29
dc.identifier.citationCOSTA JÚNIOR, Joel David. Detecção de novidade em fluxos contínuos de dados multirrótulo. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12197.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/12197
dc.description.abstractMulti-label Stream Classification (MLSC) aims at classifying streaming examples into multiple classes simultaneously. It is a very challenging task, since new classes may emerge (concept evolution), and known classes may change over the stream (concept drift. Most of classifier methods deal with the aforementioned characteristics updating their models when actuals labels of examples become available, it is a very optimistic scenario though, since for many data streams application these labels are never available, hence is unfeasible to update models in a supervised fashion. This is known as infinitely delayed labels problems and a task that has been stood out for dealing with it, is the Novelty Detection (ND). ND aims at detecting new patterns in arriving streaming examples that, in some aspect, might differ from the previously observed patterns and then used for updating the decision models. Despite different ND procedures have been proposed in the literature, it is still an open problem for MLSC. In this work we proposed two new methods: the MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) which applies ND to deal exclusively with concept drifts and the MultIlabel learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) which applies ND to deal with both concept drifts and concept evolution either. The methods address problem transformation techniques to deal with multi-labelled data at the offline phase and build micro-clusters based decision models. At the online phase the arrival examples are classified or rejected (labelled as unknown) by the current decision models. Rejected examples are used in ND phase to shape new micro-clusters, maintaining the decision models updated. The ND phase is run from time to time to work around concept drifts and concept evolution. Experiments over synthetic and real-world data sets with different degrees of concept drift and concept evolution attested the potential of MINAS-BR and MINAS-LC, in which have obtained significant results when compared to baseline methods.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectClassificação multirrótulopor
dc.subjectDetecção de novidadepor
dc.subjectFluxos contínuos de dadospor
dc.subjectLatência extrema de rótulospor
dc.subjectData streameng
dc.subjectInfinitely delayed labelseng
dc.subjectMultilabel classificationeng
dc.subjectNovelty detectioneng
dc.titleDetecção de novidade em fluxos contínuos de dados multirrótulopor
dc.title.alternativeNovelty detection in multi-label data streamseng
dc.typeDissertaçãopor
dc.contributor.advisor1Cerri, Ricardo
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6266519868438512por
dc.description.resumoClassificação Multirrótulo em Fluxos Contínuos de Dados (CMFCD) é a tarefa de classificar exemplos de fluxos de dados em várias classes simultaneamente. Essa é uma tarefa desafiadora pelas características presentes nos Fluxo Contínuo de Dados (FCD), especialmente em relação a potencial distribuição não-estacionária dos dados, em que novas classes podem surgir (Evoluções de Conceito) e classes conhecidas podem mudar ao longo do tempo (Mudanças de Conceito). Apesar dos diversos trabalhos propostos para CMFCD, a maioria assume a disponibilidade dos rótulos reais dos exemplos para atualização dos métodos. No entanto, esse é um cenário irreal, visto que muitas aplicações reais possuem Latência Extrema de Rótulos, problema no qual é inviável acessar os rótulos reais dos exemplos. Uma tarefa que têm se destacado ao lidar com esses problemas é a Detecção de Novidade (DN). Em FCDs, a tarefa de DN consiste em identificar novos padrões em exemplos não rotulados dos fluxos de dados. Em alguns aspectos, esses padrões podem divergir dos exemplos observados e podem ser usados para atualizar os modelos de decisão. Apesar da gama de trabalhos que abordam o uso de DN em FCDs, essa é uma técnica pouco explorada para problemas de CM. Este trabalho propõem dois novos métodos: o MultI-label learNing Algorithm for data Streams with Label Combination-based methods (MINAS-LC) que aplica DN exclusivamente para tratar mudanças de conceito; e o MultI-label learNing Algorithm for data Streams with Binary Relevance transformation (MINAS-BR) que além de tratar mudanças de conceito, também é capaz de detectar novas classes ao longo dos fluxos de dados. Na Fase Offline, os métodos propostos constroem modelos de decisão baseados em microgrupos e, na Fase Online, novos exemplos são classificados ou rejeitados (marcados como desconhecidos) pelo modelo de decisão atual. Grupos de exemplos rejeitados podem formar novos padrões válidos e serem usados para atualizar o modelo de decisão. Essa atualização é feita ao longo do fluxo a fim de refletir mudanças e evoluções de conceito. Experimentos realizados com bases de dados reais e sintéticas mostraram que o MINAS-LC alcança resultados competitivos com os métodos da literatura e o MINAS-BR resultados superiores em bases de dados com evoluções de conceito, nas quais as classes emergentes são, na maioria das vezes, detectadas corretamente pelo método.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCCpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpor
dc.description.sponsorshipIdFAPESP: 2017/11513-0por
dc.description.sponsorshipIdFAPESP: 2018/11321-6por
dc.description.sponsorshipIdCAPES: código de financiamento - 001por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/5293958366030922por


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil