Show simple item record

dc.contributor.authorBueno, Carlos Renato
dc.date.accessioned2022-06-21T17:02:54Z
dc.date.available2022-06-21T17:02:54Z
dc.date.issued2022-05-27
dc.identifier.citationBUENO, Carlos Renato. Monitoramento estatístico aplicado à ciência dos dados: uma abordagem para validação contínua de modelos preditivos classificatórios. 2022. Tese (Doutorado em Engenharia de Produção) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16304.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/16304
dc.description.abstractPredictive models are those that apply to data of observable variables, called independent, inferring on the behavior of another variable, observable or not, called dependent. A particular case, and widely used, are the binary classificatory models, in which the dependent variable can receive two values: Yes or no (positive/negative, success/failure). The present thesis demonstrates that operational environments increasingly digitized allow more complex applications of these classification models. Add to this the need to increase business competitiveness, through the search for information that reduces costs or increases the profitability of companies: it is the “Perfect Storm”, which increases the importance, scope, financial impacts, and horizon time of use of these models. This phenomenon occurs both within the industry with Big Data Analytics (BDA), and in other sectors, with the development of Data Science (DS). However, the boundary conditions, or existing operational conditions, when creating the model, can undergo significant variations, due to technical problems in the generation, capture, flow of information, or even in the relationships between the variables studied, which can reduce the quality of the forecast. of the created model. The literature review showed that several researchers claim that it is important to periodically check the performance of hits and misses of these models, however, there is a lack of more specific criteria and methods that define the checking frequency and sample sizes suitable for this monitoring. To fill this gap, the concepts of Project Science Research were used to integrate the concepts of Statistical Process Monitoring (SPM) with the methods of elaboration of models applied in the field of DS. In the construction of this integration, Phases I and II of the SPM were related to a structured process of data analysis and model generation, creating an approach for its continuous validation. This was validated using analytical and simulation techniques applied to the Cohen's Kappa index, resulting in prescriptive criteria for its use, supported by comparisons based on the Matthews correlation coefficient (MCC) and the index from Youden. Control charts, based on Kappa, were found to perform well for sample amounts of m=5 and sample sizes of n=500, provided the Pe value is less than 0.8. The simulations also showed that for monitoring through Kappa fewer samples are needed than for the other studied indices.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectIndústria 4.0por
dc.subjectRegressão logísticapor
dc.subjectMineração de dadospor
dc.subjectValidação temporalpor
dc.subjectModelos preditivospor
dc.subjectValidação contínuapor
dc.subjectIndustry 4.0eng
dc.subjectBig Dataeng
dc.subjectData miningeng
dc.subjectLogistic regressioneng
dc.subjectTemporal validationeng
dc.subjectPredictive modelseng
dc.subjectContinuous validationeng
dc.titleMonitoramento estatístico aplicado à ciência dos dados: uma abordagem para validação contínua de modelos preditivos classificatóriospor
dc.title.alternativeStatistical monitoring applied to data science: an approach to continuous validation of classificatory predictive modelseng
dc.typeTesepor
dc.contributor.advisor1Oprime, Pedro Carlos
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9291517431456908por
dc.description.resumoModelos preditivos são aqueles que se aplicam a dados de variáveis observáveis, denominadas independentes, inferindo-se sobre o comportamento de outra variável, observável ou não, denominada dependente. Caso particular, e muito utilizado, são os modelos classificatórios binários, em que a variável dependente pode receber dois valores: Sim ou não (positivo/negativo, sucesso/falha). A presente tese demonstra que ambientes operacionais cada vez mais digitalizados possibilitam aplicações mais complexas destes modelos classificatórios. Junte-se a isso a necessidade de aumento da competitividade nos negócios, através da busca por informações que reduzam custos ou aumentem a lucratividade das empresas: é a “Tempestade Perfeita”, que aumenta a importância, o escopo, os impactos financeiros e o horizonte de tempo de uso desses modelos. Esse fenômeno ocorre tanto dentro da indústria com a Análise de Big Data (em inglês Big Data Analytics – BDA), quanto em outros setores, com o desenvolvimento da Ciência dos Dados (em inglês Data Science – DS). Entretanto, as condições de contorno, ou condições operacionais existentes, quando da criação do modelo, podem sofrer variações significativas, devido problemas técnicos na geração, captura, fluxo das informações ou mesmo nas relações entre as variáveis estudadas, que podem reduzir a qualidade da previsão do modelo criado. A revisão da literatura demonstrou que vários pesquisadores afirmam ser importante verificar periodicamente o desempenho de acertos e erros destes modelos, no entanto faltam critérios e métodos mais específicos que definam a frequência de checagem e tamanhos de amostra adequados a este monitoramento. Com o objetivo de preencher essa lacuna, utilizou-se os conceitos de Pesquisa em Ciência de Projeto para integrar os conceitos do Monitoramento Estatístico do Processo (em inglês: Statistical Process Monitoring – SPM) à métodos de elaboração de modelos aplicados no campo da DS. Na construção dessa integração relacionou-se as Fases I e II do SPM com um processo estruturado de análise de dados e geração de modelos, criando-se uma abordagem para sua validação contínua. Esta foi validada com o uso de técnicas analíticas e de simulação aplicadas ao índice Kappa de Cohen, resultando em critérios prescritivos para seu uso, apoiado em comparações baseadas no coeficiente de correlação de Matthews (em inglês: Matthews Correlation coefficient – MCC) e no índice de Youden. Verificou-se que gráficos de controle, baseados em Kappa, tem desempenho adequado para quantidades de amostra m=5 e tamanhos de amostra n=500, desde que o valor de Pe seja menor que 0,8. As simulações também demonstraram que para o monitoramento através de Kappa são necessárias menos amostras que para os outros índices estudados.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Engenharia de Produção - PPGEPpor
dc.subject.cnpqCIENCIAS SOCIAIS APLICADAS::ADMINISTRACAO::ADMINISTRACAO DE EMPRESAS::ADMINISTRACAO DA PRODUCAOpor
dc.subject.cnpqENGENHARIAS::ENGENHARIA DE PRODUCAO::GERENCIA DE PRODUCAOpor
dc.subject.cnpqENGENHARIAS::ENGENHARIA DE PRODUCAOpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSpor
dc.description.sponsorshipIdCódigo de financiamento 001por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/3580541754508326por


Files in this item

Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil