Um estudo sobre diferentes métodos de classificação para dados extremamente desbalanceados sob a ótica do aprendizado sensível ao custo
| dc.contributor.advisor1 | Diniz, Carlos Alberto Ribeiro | |
| dc.contributor.advisor1Lattes | https://lattes.cnpq.br/3277371897783194 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0003-3464-1108 | |
| dc.contributor.author | Angélico, João Pedro Modesto | |
| dc.date.accessioned | 2026-04-07T18:46:31Z | |
| dc.date.issued | 2025-02-25 | |
| dc.description.abstract | In classification tasks, we often encounter datasets with highly imbalanced classes, such as those found in rare disease diagnosis, financial fraud detection, and industrial failure analysis. Training traditional models on such datasets tends to favor the majority class, resulting in poor ability to identify observations from the minority class, which is usually the one of greatest interest. In this undergraduate thesis, we present and compare different classification models — Logistic Regression, Random Forest, and XGBoost — from the perspective of cost‑sensitive learning, applying class weights to compensate for severe imbalance. Using a real‑world credit card transaction dataset (with only 0.172% fraud cases), we demonstrate how assigning differential weights to classification errors significantly improves the sensitivity (recall) in detecting the minority class. Furthermore, we evaluate which combination of model and validation technique (data‑split or stratified cross‑validation) yields the best trade‑off between sensitivity, precision, and F1‑score. The results indicate that XGBoost with appropriate weighting achieves the best overall performance, reaching recall above 0.89 and F1‑score close to 0.88. | eng |
| dc.description.resumo | Frequentemente, em modelos de classificação, nos deparamos com bancos de dados que possuem classes extremamente desbalanceadas, como por exemplo: dados de diagnóstico de doenças raras, detecção de fraudes financeiras e falhas industriais. Treinar modelos tradicionais nesses conjuntos tende a privilegiar a classe majoritária, resultando em baixa capacidade de identificar observações da classe minoritária, que geralmente é a de maior interesse. Neste Trabalho de Conclusão de Curso (TCC), apresentamos e comparamos diferentes modelos de classificação — Regressão Logística, Floresta Aleatória e XGBoost — sob a ótica do aprendizado sensível ao custo, aplicando ponderação por classes para compensar o forte desbalanceamento. Utilizando um conjunto de dados reais de transações de cartão de crédito (com apenas 0,172% de fraudes), demonstramos como a atribuição de pesos diferenciados aos erros de classificação melhora significativamente a sensibilidade (recall) na detecção da classe minoritária, além de avaliar qual combinação entre modelo e técnica de validação (data-split ou validação cruzada estratificada) leva ao melhor equilíbrio entre sensibilidade, precisão e F1-score. Os resultados indicam que o XGBoost com ponderação adequada apresenta o melhor desempenho geral, atingindo recall superior a 0,89 e F1-score próximo a 0,88. | por |
| dc.description.sponsorship | Não recebi financiamento | |
| dc.identifier.citation | ANGÉLICO, João Pedro Modesto. Um estudo sobre diferentes métodos de classificação para dados extremamente desbalanceados sob a ótica do aprendizado sensível ao custo. 2025. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23901. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/23901 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Câmpus São Carlos | |
| dc.publisher.course | Estatística - Es | |
| dc.publisher.initials | UFSCar | |
| dc.rights | Attribution-ShareAlike 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-sa/3.0/br/ | |
| dc.subject | Dados desbalanceados | por |
| dc.subject | Aprendizado sensível ao custo | por |
| dc.subject | Modelos de classificação | por |
| dc.subject | Imbalanced data | eng |
| dc.subject | Cost‑sensitive learning | eng |
| dc.subject | Classification models | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO | |
| dc.subject.ods | 8. Trabalho Decente e Crescimento Econômico | |
| dc.title | Um estudo sobre diferentes métodos de classificação para dados extremamente desbalanceados sob a ótica do aprendizado sensível ao custo | por |
| dc.title.alternative | A study on different classification methods for extremely imbalanced data from the perspective of cost-sensitive learning | eng |
| dc.type | TCC |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- TG João Modesto.pdf
- Tamanho:
- 2.03 MB
- Formato:
- Adobe Portable Document Format