Monitoramento estatístico aplicado à ciência dos dados: uma abordagem para validação contínua de modelos preditivos classificatórios

Bueno, Carlos Renato

dc.contributor.author	Bueno, Carlos Renato
dc.date.accessioned	2022-06-21T17:02:54Z
dc.date.available	2022-06-21T17:02:54Z
dc.date.issued	2022-05-27
dc.identifier.citation	BUENO, Carlos Renato. Monitoramento estatístico aplicado à ciência dos dados: uma abordagem para validação contínua de modelos preditivos classificatórios. 2022. Tese (Doutorado em Engenharia de Produção) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/16304.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/16304
dc.description.abstract	Predictive models are those that apply to data of observable variables, called independent, inferring on the behavior of another variable, observable or not, called dependent. A particular case, and widely used, are the binary classificatory models, in which the dependent variable can receive two values: Yes or no (positive/negative, success/failure). The present thesis demonstrates that operational environments increasingly digitized allow more complex applications of these classification models. Add to this the need to increase business competitiveness, through the search for information that reduces costs or increases the profitability of companies: it is the “Perfect Storm”, which increases the importance, scope, financial impacts, and horizon time of use of these models. This phenomenon occurs both within the industry with Big Data Analytics (BDA), and in other sectors, with the development of Data Science (DS). However, the boundary conditions, or existing operational conditions, when creating the model, can undergo significant variations, due to technical problems in the generation, capture, flow of information, or even in the relationships between the variables studied, which can reduce the quality of the forecast. of the created model. The literature review showed that several researchers claim that it is important to periodically check the performance of hits and misses of these models, however, there is a lack of more specific criteria and methods that define the checking frequency and sample sizes suitable for this monitoring. To fill this gap, the concepts of Project Science Research were used to integrate the concepts of Statistical Process Monitoring (SPM) with the methods of elaboration of models applied in the field of DS. In the construction of this integration, Phases I and II of the SPM were related to a structured process of data analysis and model generation, creating an approach for its continuous validation. This was validated using analytical and simulation techniques applied to the Cohen's Kappa index, resulting in prescriptive criteria for its use, supported by comparisons based on the Matthews correlation coefficient (MCC) and the index from Youden. Control charts, based on Kappa, were found to perform well for sample amounts of m=5 and sample sizes of n=500, provided the Pe value is less than 0.8. The simulations also showed that for monitoring through Kappa fewer samples are needed than for the other studied indices.	eng
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Indústria 4.0	por
dc.subject	Regressão logística	por
dc.subject	Mineração de dados	por
dc.subject	Validação temporal	por
dc.subject	Modelos preditivos	por
dc.subject	Validação contínua	por
dc.subject	Industry 4.0	eng
dc.subject	Big Data	eng
dc.subject	Data mining	eng
dc.subject	Logistic regression	eng
dc.subject	Temporal validation	eng
dc.subject	Predictive models	eng
dc.subject	Continuous validation	eng
dc.title	Monitoramento estatístico aplicado à ciência dos dados: uma abordagem para validação contínua de modelos preditivos classificatórios	por
dc.title.alternative	Statistical monitoring applied to data science: an approach to continuous validation of classificatory predictive models	eng
dc.type	Tese	por
dc.contributor.advisor1	Oprime, Pedro Carlos
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/9291517431456908	por
dc.description.resumo	Modelos preditivos são aqueles que se aplicam a dados de variáveis observáveis, denominadas independentes, inferindo-se sobre o comportamento de outra variável, observável ou não, denominada dependente. Caso particular, e muito utilizado, são os modelos classificatórios binários, em que a variável dependente pode receber dois valores: Sim ou não (positivo/negativo, sucesso/falha). A presente tese demonstra que ambientes operacionais cada vez mais digitalizados possibilitam aplicações mais complexas destes modelos classificatórios. Junte-se a isso a necessidade de aumento da competitividade nos negócios, através da busca por informações que reduzam custos ou aumentem a lucratividade das empresas: é a “Tempestade Perfeita”, que aumenta a importância, o escopo, os impactos financeiros e o horizonte de tempo de uso desses modelos. Esse fenômeno ocorre tanto dentro da indústria com a Análise de Big Data (em inglês Big Data Analytics – BDA), quanto em outros setores, com o desenvolvimento da Ciência dos Dados (em inglês Data Science – DS). Entretanto, as condições de contorno, ou condições operacionais existentes, quando da criação do modelo, podem sofrer variações significativas, devido problemas técnicos na geração, captura, fluxo das informações ou mesmo nas relações entre as variáveis estudadas, que podem reduzir a qualidade da previsão do modelo criado. A revisão da literatura demonstrou que vários pesquisadores afirmam ser importante verificar periodicamente o desempenho de acertos e erros destes modelos, no entanto faltam critérios e métodos mais específicos que definam a frequência de checagem e tamanhos de amostra adequados a este monitoramento. Com o objetivo de preencher essa lacuna, utilizou-se os conceitos de Pesquisa em Ciência de Projeto para integrar os conceitos do Monitoramento Estatístico do Processo (em inglês: Statistical Process Monitoring – SPM) à métodos de elaboração de modelos aplicados no campo da DS. Na construção dessa integração relacionou-se as Fases I e II do SPM com um processo estruturado de análise de dados e geração de modelos, criando-se uma abordagem para sua validação contínua. Esta foi validada com o uso de técnicas analíticas e de simulação aplicadas ao índice Kappa de Cohen, resultando em critérios prescritivos para seu uso, apoiado em comparações baseadas no coeficiente de correlação de Matthews (em inglês: Matthews Correlation coefficient – MCC) e no índice de Youden. Verificou-se que gráficos de controle, baseados em Kappa, tem desempenho adequado para quantidades de amostra m=5 e tamanhos de amostra n=500, desde que o valor de Pe seja menor que 0,8. As simulações também demonstraram que para o monitoramento através de Kappa são necessárias menos amostras que para os outros índices estudados.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Engenharia de Produção - PPGEP	por
dc.subject.cnpq	CIENCIAS SOCIAIS APLICADAS::ADMINISTRACAO::ADMINISTRACAO DE EMPRESAS::ADMINISTRACAO DA PRODUCAO	por
dc.subject.cnpq	ENGENHARIAS::ENGENHARIA DE PRODUCAO::GERENCIA DE PRODUCAO	por
dc.subject.cnpq	ENGENHARIAS::ENGENHARIA DE PRODUCAO	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS	por
dc.description.sponsorshipId	Código de financiamento 001	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/3580541754508326	por