Show simple item record

dc.contributor.authorZagatti, Fernando Rezende
dc.date.accessioned2021-08-23T14:16:25Z
dc.date.available2021-08-23T14:16:25Z
dc.date.issued2021-05-26
dc.identifier.citationZAGATTI, Fernando Rezende. Data preparation pipeline recommendation via meta-learning. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14790.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/14790
dc.description.abstractData preparation is a essential stage in the machine learning pipeline, aiming to convert noisy and disordered data into refined data compatible with the algorithms. However, data preparation is time-consuming and requires specialized knowledge. In this scenario, automating data preparation and decreasing the effort made by data scientists at this stage is a scientific challenge of great practical relevance. Each dataset has its particular characteristics and can be interpreted in different ways. Despite its relevance, current automated machine learning (AutoML) platforms disregard or make simple hardcoded pipelines for data preparation. Trying to fill this gap, we present a meta-learning-based recommendation system for data preparation. Our system recommends five pipelines, ranked by their relevance, so it is useful for users with varied experience levels. Using the top recommendation to simulate an entirely automatic choice of data preparation pipeline, we demonstrate that our proposal allows a better performance of an AutoML system, unable to find a classification model due to the noisy data. Besides, our method's accuracy rates are similar to those achieved by a reinforcement-learning-based algorithm with the same goal, but it is up to two orders of magnitude faster. Morevover, we demonstrate our method in a real-world application and evaluate its benefits and limitations in this scenario.eng
dc.description.sponsorshipOutrapor
dc.language.isoengeng
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectAutomatizaçãopor
dc.subjectPreparação de dadospor
dc.subjectMeta-aprendizadopor
dc.subjectPré-processamentopor
dc.subjectAprendizado de máquinapor
dc.subjectAutomatedeng
dc.subjectData preparationeng
dc.subjectMeta-learningeng
dc.subjectPreprocessingeng
dc.subjectMachine learningeng
dc.titleData preparation pipeline recommendation via meta-learningeng
dc.title.alternativeRecomendação de pipeline de preparação de dados via meta-aprendizadopor
dc.typeDissertaçãopor
dc.contributor.advisor1Silva, Diego Furtado
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7662777934692986por
dc.description.resumoA preparação de dados é uma etapa essencial no pipeline de aprendizado de máquina, com o objetivo de converter dados volumosos e inconstantes em dados refinados compatíveis com os algoritmos a serem aplicados. No entanto, a preparação de dados demanda muito tempo e requer conhecimento especializado. Cada conjunto de dados tem suas características particulares, que devem ser levadas em conta, e pode ser interpretado de maneiras diferentes. Nesse cenário, automatizar a preparação de dados e, por consequência, diminuir o esforço feito pelos cientistas de dados nesse estágio é um desafio científico de grande relevância prática. Apesar de sua relevância, as plataformas de automatização do aprendizado de máquina (AutoML) atuais desconsideram ou criam pipelines pré-definidos para a preparação de dados, que não se adaptam às características do conjunto de dados a ser tratado. Tentando preencher essa lacuna, apresentamos um sistema de recomendação baseado em meta-aprendizado para a preparação de dados. Nosso sistema recomenda cinco pipelines, classificados por relevância. Dessa maneira, é útil para usuários com níveis de experiência variados. Usando a principal recomendação para simular uma escolha totalmente automática, demonstramos que nossa proposta permite um melhor desempenho de um sistema AutoML, incapaz de encontrar um modelo de classificação devido aos dados ruidosos. Além disso, as taxas de precisão do nosso método são semelhantes às alcançadas por um algoritmo baseado no aprendizado por reforço com o mesmo objetivo, mas é até duas ordens de magnitude mais rápido. Além disso, demonstramos nosso método em uma aplicação do mundo real e avaliamos seus benefícios e limitações neste cenário.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCCpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpor
dc.description.sponsorshipId132783/2019-3por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/8060946497875227por


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil