Estudo comparativo de modelos de Machine learning na predição de um behaviour score

Freitas, Fernanda Waltrs

Estudo comparativo de modelos de Machine learning na predição de um behaviour score

dc.contributor.advisor1	Izbicki, Rafael
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/9991192137633896
dc.contributor.author	Freitas, Fernanda Waltrs
dc.date.accessioned	2025-02-26T18:46:28Z
dc.date.issued	2025-02-05
dc.description.abstract	Credit Risk Modeling is an essential technique for financial institutions in making intelligent analytical decisions, such as granting credit, financing, or loans. These institutions aim to accurately identify individuals likely to meet their obligations on time by estimating the probability of customers being compliant or delinquent.This study aims to develop a Behaviour Score used by companies to assign scores to their customers based on their transactional behavior history, using a dataset with more than 400,000 customers and over 200 covariates.To achieve this, we analyzed the dataset and trained four machine learning models, ranging from traditional methods such as Penalized Logistic Regression (Oliveira et al., 2012) and Random Forest (Breiman, 2001) to more recent approaches like eXtreme Gradient Boosting (XGBoost) (Friedman, 2001; Chen & Guestrin, 2016) and Light Gradient Boosting Machine (LightGBM) (Ke et al., 2017). When comparing the models on the test sample, we found that, in general, all models effectively distinguish between the response variable classes. However, the model that achieved the best predictive performance was XGBoost, with an area under the ROC curve of 82.03%, a Gini coefficient of 64.06%, and a KS statistic of 47.97%, among other performance metrics. On the other hand, the model with the lowest predictive performance was Penalized Logistic Regression, which obtained an area under the ROC curve of 78.46%, a Gini coefficient of 56.92%, and a KS statistic of 42.73%, among other measures. Additionally, it had the longest training time compared to the other models.	eng
dc.description.resumo	A modelagem de risco de crédito é uma técnica importante para instituições financeiras na tomada de decisões analíticas inteligentes, como na concessão de créditos, financiamentos ou empréstimos. Dessa forma, essas entidades buscam identificar com maior precisão os indivíduos propensos a cumprir suas obrigações dentro do prazo, por meio da estimação da probabilidade de os clientes serem adimplentes ou inadimplentes. Sendo assim, este trabalho tem como objetivo desenvolver a predição de um Behaviour Score utilizado por empresas para atribuir pontuações aos seus clientes com base em seu histórico comportamental de transações, utilizando um banco de dados com mais de 400 mil clientes e mais de 200 covariáveis.Para isso, analisamos o conjunto de dados e ajustamos quatro modelos de aprendizado de máquina, abrangendo desde o modelo mais tradicional, a Regressão Logística com Penalização (Oliveira et al., 2012) e Floresta Aleatória (Breiman, 2001), até modelos mais recentes, como eXtreme Gradient Boosting (XGBoost) (Friedman, 2001; Chen e Guestrin, 2016) e Light Gradient Boosting Machine (LightGBM) (Ke et al., 2017).Como resultado final, ao comparar os modelos na amostra de teste, concluímos que, no geral, todos discriminam bem as classes da variável resposta. No entanto, o método que obteve os melhores resultados preditivos foi o XGBoost, com área sob a curva ROC de 82,03%, coeficiente de Gini de 64,06%, KS de 47,97%, entre outras métricas de desempenho. Por outro lado, o método que apresentou os menores resultados preditivos foi a Regressão Logística com Penalização, que obteve área sob a curva ROC de 78,46%, coeficiente de Gini de 56,92%, KS de 42,73%, entre outras medidas de desempenho, além de apresentar o maior tempo de treinamento em comparação aos demais modelos.
dc.identifier.citation	FREITAS, Fernanda Waltrs. Estudo comparativo de modelos de Machine learning na predição de um behaviour score. 2025. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21478.	por
dc.identifier.uri	https://hdl.handle.net/20.500.14289/21478
dc.language.iso	por
dc.publisher	Universidade Federal de São Carlos
dc.publisher.address	Campus São Carlos
dc.publisher.course	Estatística - Es
dc.publisher.initials	UFSCar
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subject	Behaviour score	eng
dc.subject	Credit scoring	eng
dc.subject	LightGBM	eng
dc.subject	Modelagem
dc.subject	Random forest	eng
dc.subject	Regressão logística
dc.subject	Risco de crédito
dc.subject	XGBoost	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
dc.title	Estudo comparativo de modelos de Machine learning na predição de um behaviour score
dc.title.alternative	Comparative study of machine learning models in predicting a behaviour score	eng
dc.type	TCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: TGB_Fernanda_W_Freitas_Corrigido.pdf
Tamanho:: 1.13 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

TCC