Detecção de mudança de distribuição em dados sequenciais

dc.contributor.advisor1Salasar, Luis Ernesto Bueno
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/5464564215528609
dc.contributor.authorAndrade, Douglas Decicino de
dc.contributor.authorlatteshttp://lattes.cnpq.br/9907530689329781
dc.date.accessioned2025-07-04T12:04:05Z
dc.date.issued2025-06-06
dc.description.abstractThis work aims to study the performance of the conformal method for distribution change detection (dataset shift) in sequential data, where observations are obtained sequentially over time. In particular, we consider cases where the observations are univariate, multivariate, and provided in batches (datasets) in predictive contexts. The conformal method generates p-values at each time step, which provide evidence regarding a potential change in the data distribution. Unlike classical approaches, such as the Cumulative Sum Control Chart (CUSUM), Shirayev-Roberts, and Posterior Probability methods, the conformal method does not rely on parametric assumptions about the data distribution before and after the change occurs. The conformal method was applied using different nonconformity measures proposed in this work, including those based on Kullback-Leibler divergence and various distances in Euclidean spaces constructed through statistical depth measures. The effectiveness of this approach for detecting distributional changes was evaluated in different empirical studies by measuring the average detection delay and the proportion of false alarms. It is expected that this research can contribute to the application of this method in the online monitoring of machine learning models in dynamic environments, allowing the identification of the appropriate time to recalibrate or retrain algorithms in a more reliable manner.eng
dc.description.resumoEste trabalho se propõe a estudar o desempenho do método conformal para detecção de mudança de distribuição (dataset shift) para dados sequenciais, isto é, observações são sequencialmente obtidas ao longo do tempo. Em particular, consideramos os casos em que as observações são univariadas, multivariadas e informadas em lotes (datasets) em contextos preditivos. O método conformal gera valores-p a cada instante, que fornecem indícios a respeito de uma mudança na distribuição dos dados. Diferentemente de abordagens clássicas, como os métodos Cumulative Sum Control Chart (CUSUM), Shirayev-Roberts e o Posterior Probability, o método conformal não se baseia em suposições paramétricas sobre a distribuição dos dados antes e depois da mudança ocorrer. O método conformal foi aplicado considerando diferentes medidas de não conformidade que foram propostas neste trabalho, baseadas por exemplo na divergência de Kullback-Leibler e diferentes distâncias em espaços Euclidianos construídos a partir de medidas de profundidade estatística. A eficácia desta abordagem para detecção de mudança de distribuição foi avaliada em diferentes estudos empíricos por meio do tempo médio de atraso na detecção e pela proporção de falsos alarmes. Espera-se que esta pesquisa possa contribuir para a aplicação deste método no monitoramento on-line de modelos de aprendizado de máquina em ambientes dinâmicos, permitindo identificar o momento oportuno para recalibrar ou retreinar algoritmos de forma mais confiável.
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.description.sponsorshipId88887.910268/2023-00
dc.identifier.citationANDRADE, Douglas Decicino de. Detecção de mudança de distribuição em dados sequenciais. 2025. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22279.*
dc.identifier.urihttps://hdl.handle.net/20.500.14289/22279
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCâmpus São Carlos
dc.publisher.initialsUFSCar
dc.publisher.programPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectDataset shifteng
dc.subjectDetecção de mudanças de distribuição
dc.subjectDetecção de ponto de mudança
dc.subjectDados sequenciais
dc.subjectProcessamento em lote
dc.subjectAprendizagem de máquina
dc.subjectDataset Distribution change detectioneng
dc.subjectChange point detectioneng
dc.subjectSequential dataeng
dc.subjectBatch processingeng
dc.subjectMachine learningeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE MULTIVARIADA
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::FUNDAMENTOS DA ESTATISTICA
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOS
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICA
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA
dc.titleDetecção de mudança de distribuição em dados sequenciais
dc.title.alternativeDistribution shift detection in sequential dataeng
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação_revisada_Douglas_Decicino.pdf
Tamanho:
2.1 MB
Formato:
Adobe Portable Document Format