Show simple item record

dc.contributor.authorBittencourt, Marciele de Menezes
dc.date.accessioned2020-04-22T11:56:13Z
dc.date.available2020-04-22T11:56:13Z
dc.date.issued2020-03-27
dc.identifier.citationBITTENCOURT, Marciele de Menezes. ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12436.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/12436
dc.description.abstractSingle-label text classification has been extensively studied in the last decades and usually more attention has been given to offline learning scenarios, where all of the training data is available in advance. However, real-world text classification problems often involve multilabel instances and have dynamic textual patterns that can change frequently. In this context, ideally, the methods should be able to predict a subset of target labels rather than a single one, and to update their model incrementally to be scalable and adaptable to changes in data patterns using limited time and memory. Therefore, online and multilabel learning have attracted great research interest, since there are few methods capable of addressing both problems simultaneously. In this study, we present a text classification method based on the minimum description length principle. It can be applied to multilabel classification without requiring the transformation of the classification problem. It also takes advantage of dependency information among labels and naturally supports online learning. We evaluated its performance using fifteen datasets from different application domains and compared it with traditional benchmarks classifiers, considering offline and online learning scenarios. The results obtained by the proposed method were very competitive with the ones of existing state-of-the-art methods.por
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectClassificação Multirrótulopor
dc.subjectPrincípio da Descrição mais Simplespor
dc.subjectCategorização de Textospor
dc.subjectAprendizado Onlinepor
dc.subjectAprendizado de Máquinapor
dc.subjectMultilabel Classificationpor
dc.subjectMinimum Description Lengthpor
dc.subjectText Categorizationpor
dc.subjectOnline Learningpor
dc.subjectMachine Learningpor
dc.titleML-MDLText: um método de classificação de textos multirrótulo de aprendizado incrementalpor
dc.title.alternativeML-MDLText: a multilabel text classification method with incremental learningpor
dc.typeDissertaçãopor
dc.contributor.advisor1Almeida, Tiago Agostinho de
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5368680512020633por
dc.contributor.advisor-co1Silva, Renato Moraes
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/2532893661927339por
dc.description.resumoA classificação de textos tem sido estudada extensivamente nas últimas décadas e grande parte dos trabalhos relacionados ao tema são direcionados à classificação de rótulo único e ao aprendizado offline. Neste tipo de aprendizado, os documentos de texto são associados a apenas um rótulo e devem estar disponíveis com antecedência para o treinamento. Problemas reais de classificação de textos, no entanto, frequentemente envolvem instâncias multirrotuladas, que se tornam disponíveis continuamente e com padrões que mudam ao longo do tempo. Para manipular esses problemas, os classificadores idealmente deveriam ser capazes de predizer múltiplos rótulos para cada documento de texto e de atualizar o seu modelo preditivo de forma eficiente, para ser escalável mesmo com recursos de memória e tempo limitados, e ser rapidamente adaptável às mudanças nos padrões dos dados. Por isso, o aprendizado online e a classificação multirrótulo tem atraído grande interesse de pesquisa, uma vez que existem poucos métodos capazes de abordar os dois problemas simultaneamente e frequentemente é necessário retreinar todo o modelo ou recorrer a técnicas de transformação de problemas. Nesta dissertação, é apresentado um método de classificação de textos baseado no princípio da descrição mais simples, que pode ser empregado em problemas de classificação multirrótulo sem a necessidade de transformá-los em problemas de rótulo único. Ele também apresenta a vantagem de considerar a existência de dependência entre os rótulos e de suportar o treinamento incremental naturalmente. O desempenho desse método foi avaliado empregando-o na tarefa de classificação em 15 aplicações de diferentes domínios e o resultado obtido foi comparado com os resultados de outros classificadores referência na literatura, considerando cenários de aprendizado offline e online. Os resultados obtidos pelo método proposto são muito competitivos com os resultados obtidos pelos métodos estado-da-arte avaliados.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCC-Sopor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpor
dc.description.sponsorshipId88882.426977/2019-01por
dc.publisher.addressCâmpus Sorocabapor
dc.contributor.authorlatteshttp://lattes.cnpq.br/6803540724475032por


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil