Estudo comparativo de modelos de Machine learning na predição de um behaviour score

dc.contributor.advisor1Izbicki, Rafael
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9991192137633896
dc.contributor.authorFreitas, Fernanda Waltrs
dc.date.accessioned2025-02-26T18:46:28Z
dc.date.issued2025-02-05
dc.description.abstractCredit Risk Modeling is an essential technique for financial institutions in making intelligent analytical decisions, such as granting credit, financing, or loans. These institutions aim to accurately identify individuals likely to meet their obligations on time by estimating the probability of customers being compliant or delinquent.This study aims to develop a Behaviour Score used by companies to assign scores to their customers based on their transactional behavior history, using a dataset with more than 400,000 customers and over 200 covariates.To achieve this, we analyzed the dataset and trained four machine learning models, ranging from traditional methods such as Penalized Logistic Regression (Oliveira et al., 2012) and Random Forest (Breiman, 2001) to more recent approaches like eXtreme Gradient Boosting (XGBoost) (Friedman, 2001; Chen & Guestrin, 2016) and Light Gradient Boosting Machine (LightGBM) (Ke et al., 2017). When comparing the models on the test sample, we found that, in general, all models effectively distinguish between the response variable classes. However, the model that achieved the best predictive performance was XGBoost, with an area under the ROC curve of 82.03%, a Gini coefficient of 64.06%, and a KS statistic of 47.97%, among other performance metrics. On the other hand, the model with the lowest predictive performance was Penalized Logistic Regression, which obtained an area under the ROC curve of 78.46%, a Gini coefficient of 56.92%, and a KS statistic of 42.73%, among other measures. Additionally, it had the longest training time compared to the other models.eng
dc.description.resumoA modelagem de risco de crédito é uma técnica importante para instituições financeiras na tomada de decisões analíticas inteligentes, como na concessão de créditos, financiamentos ou empréstimos. Dessa forma, essas entidades buscam identificar com maior precisão os indivíduos propensos a cumprir suas obrigações dentro do prazo, por meio da estimação da probabilidade de os clientes serem adimplentes ou inadimplentes. Sendo assim, este trabalho tem como objetivo desenvolver a predição de um Behaviour Score utilizado por empresas para atribuir pontuações aos seus clientes com base em seu histórico comportamental de transações, utilizando um banco de dados com mais de 400 mil clientes e mais de 200 covariáveis.Para isso, analisamos o conjunto de dados e ajustamos quatro modelos de aprendizado de máquina, abrangendo desde o modelo mais tradicional, a Regressão Logística com Penalização (Oliveira et al., 2012) e Floresta Aleatória (Breiman, 2001), até modelos mais recentes, como eXtreme Gradient Boosting (XGBoost) (Friedman, 2001; Chen e Guestrin, 2016) e Light Gradient Boosting Machine (LightGBM) (Ke et al., 2017).Como resultado final, ao comparar os modelos na amostra de teste, concluímos que, no geral, todos discriminam bem as classes da variável resposta. No entanto, o método que obteve os melhores resultados preditivos foi o XGBoost, com área sob a curva ROC de 82,03%, coeficiente de Gini de 64,06%, KS de 47,97%, entre outras métricas de desempenho. Por outro lado, o método que apresentou os menores resultados preditivos foi a Regressão Logística com Penalização, que obteve área sob a curva ROC de 78,46%, coeficiente de Gini de 56,92%, KS de 42,73%, entre outras medidas de desempenho, além de apresentar o maior tempo de treinamento em comparação aos demais modelos.
dc.identifier.citationFREITAS, Fernanda Waltrs. Estudo comparativo de modelos de Machine learning na predição de um behaviour score. 2025. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21478.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/21478
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.courseEstatística - Es
dc.publisher.initialsUFSCar
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectBehaviour scoreeng
dc.subjectCredit scoringeng
dc.subjectLightGBMeng
dc.subjectModelagem
dc.subjectRandom foresteng
dc.subjectRegressão logística
dc.subjectRisco de crédito
dc.subjectXGBoosteng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
dc.titleEstudo comparativo de modelos de Machine learning na predição de um behaviour score
dc.title.alternativeComparative study of machine learning models in predicting a behaviour scoreeng
dc.typeTCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TGB_Fernanda_W_Freitas_Corrigido.pdf
Tamanho:
1.13 MB
Formato:
Adobe Portable Document Format

Coleções