Detecção de mudança de distribuição em dados sequenciais
| dc.contributor.advisor1 | Salasar, Luis Ernesto Bueno | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/5464564215528609 | |
| dc.contributor.author | Andrade, Douglas Decicino de | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/9907530689329781 | |
| dc.date.accessioned | 2025-07-04T12:04:05Z | |
| dc.date.issued | 2025-06-06 | |
| dc.description.abstract | This work aims to study the performance of the conformal method for distribution change detection (dataset shift) in sequential data, where observations are obtained sequentially over time. In particular, we consider cases where the observations are univariate, multivariate, and provided in batches (datasets) in predictive contexts. The conformal method generates p-values at each time step, which provide evidence regarding a potential change in the data distribution. Unlike classical approaches, such as the Cumulative Sum Control Chart (CUSUM), Shirayev-Roberts, and Posterior Probability methods, the conformal method does not rely on parametric assumptions about the data distribution before and after the change occurs. The conformal method was applied using different nonconformity measures proposed in this work, including those based on Kullback-Leibler divergence and various distances in Euclidean spaces constructed through statistical depth measures. The effectiveness of this approach for detecting distributional changes was evaluated in different empirical studies by measuring the average detection delay and the proportion of false alarms. It is expected that this research can contribute to the application of this method in the online monitoring of machine learning models in dynamic environments, allowing the identification of the appropriate time to recalibrate or retrain algorithms in a more reliable manner. | eng |
| dc.description.resumo | Este trabalho se propõe a estudar o desempenho do método conformal para detecção de mudança de distribuição (dataset shift) para dados sequenciais, isto é, observações são sequencialmente obtidas ao longo do tempo. Em particular, consideramos os casos em que as observações são univariadas, multivariadas e informadas em lotes (datasets) em contextos preditivos. O método conformal gera valores-p a cada instante, que fornecem indícios a respeito de uma mudança na distribuição dos dados. Diferentemente de abordagens clássicas, como os métodos Cumulative Sum Control Chart (CUSUM), Shirayev-Roberts e o Posterior Probability, o método conformal não se baseia em suposições paramétricas sobre a distribuição dos dados antes e depois da mudança ocorrer. O método conformal foi aplicado considerando diferentes medidas de não conformidade que foram propostas neste trabalho, baseadas por exemplo na divergência de Kullback-Leibler e diferentes distâncias em espaços Euclidianos construídos a partir de medidas de profundidade estatística. A eficácia desta abordagem para detecção de mudança de distribuição foi avaliada em diferentes estudos empíricos por meio do tempo médio de atraso na detecção e pela proporção de falsos alarmes. Espera-se que esta pesquisa possa contribuir para a aplicação deste método no monitoramento on-line de modelos de aprendizado de máquina em ambientes dinâmicos, permitindo identificar o momento oportuno para recalibrar ou retreinar algoritmos de forma mais confiável. | |
| dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | |
| dc.description.sponsorshipId | 88887.910268/2023-00 | |
| dc.identifier.citation | ANDRADE, Douglas Decicino de. Detecção de mudança de distribuição em dados sequenciais. 2025. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22279. | * |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/22279 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Câmpus São Carlos | |
| dc.publisher.initials | UFSCar | |
| dc.publisher.program | Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
| dc.subject | Dataset shift | eng |
| dc.subject | Detecção de mudanças de distribuição | |
| dc.subject | Detecção de ponto de mudança | |
| dc.subject | Dados sequenciais | |
| dc.subject | Processamento em lote | |
| dc.subject | Aprendizagem de máquina | |
| dc.subject | Dataset Distribution change detection | eng |
| dc.subject | Change point detection | eng |
| dc.subject | Sequential data | eng |
| dc.subject | Batch processing | eng |
| dc.subject | Machine learning | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE MULTIVARIADA | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::FUNDAMENTOS DA ESTATISTICA | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOS | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA NAO-PARAMETRICA | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA | |
| dc.title | Detecção de mudança de distribuição em dados sequenciais | |
| dc.title.alternative | Distribution shift detection in sequential data | eng |
| dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Dissertação_revisada_Douglas_Decicino.pdf
- Tamanho:
- 2.1 MB
- Formato:
- Adobe Portable Document Format