ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental

Bittencourt, Marciele de Menezes

dc.contributor.author	Bittencourt, Marciele de Menezes
dc.date.accessioned	2020-04-22T11:56:13Z
dc.date.available	2020-04-22T11:56:13Z
dc.date.issued	2020-03-27
dc.identifier.citation	BITTENCOURT, Marciele de Menezes. ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2020. Disponível em: https://repositorio.ufscar.br/handle/ufscar/12436.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/12436
dc.description.abstract	Single-label text classification has been extensively studied in the last decades and usually more attention has been given to offline learning scenarios, where all of the training data is available in advance. However, real-world text classification problems often involve multilabel instances and have dynamic textual patterns that can change frequently. In this context, ideally, the methods should be able to predict a subset of target labels rather than a single one, and to update their model incrementally to be scalable and adaptable to changes in data patterns using limited time and memory. Therefore, online and multilabel learning have attracted great research interest, since there are few methods capable of addressing both problems simultaneously. In this study, we present a text classification method based on the minimum description length principle. It can be applied to multilabel classification without requiring the transformation of the classification problem. It also takes advantage of dependency information among labels and naturally supports online learning. We evaluated its performance using fifteen datasets from different application domains and compared it with traditional benchmarks classifiers, considering offline and online learning scenarios. The results obtained by the proposed method were very competitive with the ones of existing state-of-the-art methods.	por
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Classificação Multirrótulo	por
dc.subject	Princípio da Descrição mais Simples	por
dc.subject	Categorização de Textos	por
dc.subject	Aprendizado Online	por
dc.subject	Aprendizado de Máquina	por
dc.subject	Multilabel Classification	por
dc.subject	Minimum Description Length	por
dc.subject	Text Categorization	por
dc.subject	Online Learning	por
dc.subject	Machine Learning	por
dc.title	ML-MDLText: um método de classificação de textos multirrótulo de aprendizado incremental	por
dc.title.alternative	ML-MDLText: a multilabel text classification method with incremental learning	por
dc.type	Dissertação	por
dc.contributor.advisor1	Almeida, Tiago Agostinho de
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/5368680512020633	por
dc.contributor.advisor-co1	Silva, Renato Moraes
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/2532893661927339	por
dc.description.resumo	A classificação de textos tem sido estudada extensivamente nas últimas décadas e grande parte dos trabalhos relacionados ao tema são direcionados à classificação de rótulo único e ao aprendizado offline. Neste tipo de aprendizado, os documentos de texto são associados a apenas um rótulo e devem estar disponíveis com antecedência para o treinamento. Problemas reais de classificação de textos, no entanto, frequentemente envolvem instâncias multirrotuladas, que se tornam disponíveis continuamente e com padrões que mudam ao longo do tempo. Para manipular esses problemas, os classificadores idealmente deveriam ser capazes de predizer múltiplos rótulos para cada documento de texto e de atualizar o seu modelo preditivo de forma eficiente, para ser escalável mesmo com recursos de memória e tempo limitados, e ser rapidamente adaptável às mudanças nos padrões dos dados. Por isso, o aprendizado online e a classificação multirrótulo tem atraído grande interesse de pesquisa, uma vez que existem poucos métodos capazes de abordar os dois problemas simultaneamente e frequentemente é necessário retreinar todo o modelo ou recorrer a técnicas de transformação de problemas. Nesta dissertação, é apresentado um método de classificação de textos baseado no princípio da descrição mais simples, que pode ser empregado em problemas de classificação multirrótulo sem a necessidade de transformá-los em problemas de rótulo único. Ele também apresenta a vantagem de considerar a existência de dependência entre os rótulos e de suportar o treinamento incremental naturalmente. O desempenho desse método foi avaliado empregando-o na tarefa de classificação em 15 aplicações de diferentes domínios e o resultado obtido foi comparado com os resultados de outros classificadores referência na literatura, considerando cenários de aprendizado offline e online. Os resultados obtidos pelo método proposto são muito competitivos com os resultados obtidos pelos métodos estado-da-arte avaliados.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC-So	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	por
dc.description.sponsorshipId	88882.426977/2019-01	por
dc.publisher.address	Câmpus Sorocaba	por
dc.contributor.authorlattes	http://lattes.cnpq.br/6803540724475032	por