Estudo comparativo de modelos de Machine learning na predição de um behaviour score
| dc.contributor.advisor1 | Izbicki, Rafael | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/9991192137633896 | |
| dc.contributor.author | Freitas, Fernanda Waltrs | |
| dc.date.accessioned | 2025-02-26T18:46:28Z | |
| dc.date.issued | 2025-02-05 | |
| dc.description.abstract | Credit Risk Modeling is an essential technique for financial institutions in making intelligent analytical decisions, such as granting credit, financing, or loans. These institutions aim to accurately identify individuals likely to meet their obligations on time by estimating the probability of customers being compliant or delinquent.This study aims to develop a Behaviour Score used by companies to assign scores to their customers based on their transactional behavior history, using a dataset with more than 400,000 customers and over 200 covariates.To achieve this, we analyzed the dataset and trained four machine learning models, ranging from traditional methods such as Penalized Logistic Regression (Oliveira et al., 2012) and Random Forest (Breiman, 2001) to more recent approaches like eXtreme Gradient Boosting (XGBoost) (Friedman, 2001; Chen & Guestrin, 2016) and Light Gradient Boosting Machine (LightGBM) (Ke et al., 2017). When comparing the models on the test sample, we found that, in general, all models effectively distinguish between the response variable classes. However, the model that achieved the best predictive performance was XGBoost, with an area under the ROC curve of 82.03%, a Gini coefficient of 64.06%, and a KS statistic of 47.97%, among other performance metrics. On the other hand, the model with the lowest predictive performance was Penalized Logistic Regression, which obtained an area under the ROC curve of 78.46%, a Gini coefficient of 56.92%, and a KS statistic of 42.73%, among other measures. Additionally, it had the longest training time compared to the other models. | eng |
| dc.description.resumo | A modelagem de risco de crédito é uma técnica importante para instituições financeiras na tomada de decisões analíticas inteligentes, como na concessão de créditos, financiamentos ou empréstimos. Dessa forma, essas entidades buscam identificar com maior precisão os indivíduos propensos a cumprir suas obrigações dentro do prazo, por meio da estimação da probabilidade de os clientes serem adimplentes ou inadimplentes. Sendo assim, este trabalho tem como objetivo desenvolver a predição de um Behaviour Score utilizado por empresas para atribuir pontuações aos seus clientes com base em seu histórico comportamental de transações, utilizando um banco de dados com mais de 400 mil clientes e mais de 200 covariáveis.Para isso, analisamos o conjunto de dados e ajustamos quatro modelos de aprendizado de máquina, abrangendo desde o modelo mais tradicional, a Regressão Logística com Penalização (Oliveira et al., 2012) e Floresta Aleatória (Breiman, 2001), até modelos mais recentes, como eXtreme Gradient Boosting (XGBoost) (Friedman, 2001; Chen e Guestrin, 2016) e Light Gradient Boosting Machine (LightGBM) (Ke et al., 2017).Como resultado final, ao comparar os modelos na amostra de teste, concluímos que, no geral, todos discriminam bem as classes da variável resposta. No entanto, o método que obteve os melhores resultados preditivos foi o XGBoost, com área sob a curva ROC de 82,03%, coeficiente de Gini de 64,06%, KS de 47,97%, entre outras métricas de desempenho. Por outro lado, o método que apresentou os menores resultados preditivos foi a Regressão Logística com Penalização, que obteve área sob a curva ROC de 78,46%, coeficiente de Gini de 56,92%, KS de 42,73%, entre outras medidas de desempenho, além de apresentar o maior tempo de treinamento em comparação aos demais modelos. | |
| dc.identifier.citation | FREITAS, Fernanda Waltrs. Estudo comparativo de modelos de Machine learning na predição de um behaviour score. 2025. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21478. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/21478 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.course | Estatística - Es | |
| dc.publisher.initials | UFSCar | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
| dc.subject | Behaviour score | eng |
| dc.subject | Credit scoring | eng |
| dc.subject | LightGBM | eng |
| dc.subject | Modelagem | |
| dc.subject | Random forest | eng |
| dc.subject | Regressão logística | |
| dc.subject | Risco de crédito | |
| dc.subject | XGBoost | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA | |
| dc.title | Estudo comparativo de modelos de Machine learning na predição de um behaviour score | |
| dc.title.alternative | Comparative study of machine learning models in predicting a behaviour score | eng |
| dc.type | TCC |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- TGB_Fernanda_W_Freitas_Corrigido.pdf
- Tamanho:
- 1.13 MB
- Formato:
- Adobe Portable Document Format