Um estudo sobre diferentes métodos de classificação para dados extremamente desbalanceados sob a ótica do aprendizado sensível ao custo

Angélico, João Pedro Modesto

Um estudo sobre diferentes métodos de classificação para dados extremamente desbalanceados sob a ótica do aprendizado sensível ao custo

Arquivos

item.page.bitstreams.primary TG João Modesto.pdf (2.03 MB)

Data

2025-02-25

Autores

Angélico, João Pedro Modesto

Editor

Universidade Federal de São Carlos

Resumo

In classification tasks, we often encounter datasets with highly imbalanced classes, such as those found in rare disease diagnosis, financial fraud detection, and industrial failure analysis. Training traditional models on such datasets tends to favor the majority class, resulting in poor ability to identify observations from the minority class, which is usually the one of greatest interest. In this undergraduate thesis, we present and compare different classification models — Logistic Regression, Random Forest, and XGBoost — from the perspective of cost‑sensitive learning, applying class weights to compensate for severe imbalance. Using a real‑world credit card transaction dataset (with only 0.172% fraud cases), we demonstrate how assigning differential weights to classification errors significantly improves the sensitivity (recall) in detecting the minority class. Furthermore, we evaluate which combination of model and validation technique (data‑split or stratified cross‑validation) yields the best trade‑off between sensitivity, precision, and F1‑score. The results indicate that XGBoost with appropriate weighting achieves the best overall performance, reaching recall above 0.89 and F1‑score close to 0.88.

Palavras-chave

Dados desbalanceados, Aprendizado sensível ao custo, Modelos de classificação, Imbalanced data, Cost‑sensitive learning, Classification models

Citação

ANGÉLICO, João Pedro Modesto. Um estudo sobre diferentes métodos de classificação para dados extremamente desbalanceados sob a ótica do aprendizado sensível ao custo. 2025. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23901.

URI

https://hdl.handle.net/20.500.14289/23901

Coleções

TCC

Licença Creative Commons

Exceto quando indicado de outra forma, a licença deste item é descrita como Attribution-ShareAlike 3.0 Brazil

Página do item completo

Um estudo sobre diferentes métodos de classificação para dados extremamente desbalanceados sob a ótica do aprendizado sensível ao custo

Arquivos

Data

Autores

Título da Revista

ISSN da Revista

Título de Volume

Editor

Resumo

Descrição

Palavras-chave

Citação

URI

Coleções

item.page.endorsement

item.page.review

item.page.supplemented

item.page.referenced

Licença Creative Commons