Classificação binária de dados financeiros em problemas com classes desbalanceadas

Moura, Lucas Fernando

dc.contributor.author	Moura, Lucas Fernando
dc.date.accessioned	2024-02-27T12:58:27Z
dc.date.available	2024-02-27T12:58:27Z
dc.date.issued	2024-01-29
dc.identifier.citation	MOURA, Lucas Fernando. Classificação binária de dados financeiros em problemas com classes desbalanceadas. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19504.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/19504
dc.description.abstract	In order to mitigate the risks and uncertainties associated with credit granting, financial institutions are constantly exploring methods to enhance the credit evaluation system. In the same context, the growth in credit card transactions has led to an increase in fraud, resulting in billions of dollars in annual losses for financial institutions. Therefore, it is crucial for companies to effectively detect fraudulent transactions. One way to minimize losses due to default or fraud is to use statistical methods that yield results close to reality, presenting a low margin of error. However, the major challenge in executing this process is that such financial data is imbalanced, meaning there is a higher proportion of non-defaulting customers and legitimate transactions (majority groups) than delinquent customers and fraudulent transactions (minority groups). This imbalance leads to a classification bias, as learning algorithms tend to classify observations from the majority group better. In this context, this work aims to conduct a comparative study of the performance of support vector machines and logistic regression in classifying new sample units. This study will be carried out using three financial datasets with different degrees of imbalance, considering three contexts: (i) without applying any technique to handle the imbalance of the datasets; (ii) applying data preprocessing techniques to handle the imbalance of the datasets; and (iii) using the cost-sensitive version of the original classifiers to handle the imbalance of the datasets. The analysis of classifier performance will be based on measures derived from the confusion matrix that have been shown to be less sensitive to data imbalance, such as the G-mean, Matthews correlation coefficient, and F-score.	eng
dc.description.sponsorship	Não recebi financiamento	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Classificadores sensíveis ao custo	por
dc.subject	Desbalanceamento de classes	por
dc.subject	Máquinas de vetores suporte	por
dc.subject	Métodos de pré-processamento de dados	por
dc.subject	Regressão logística	por
dc.title	Classificação binária de dados financeiros em problemas com classes desbalanceadas	por
dc.title.alternative	Binary classification of financial data in problems with imbalanced data	eng
dc.type	TCC	por
dc.contributor.advisor1	Ferreira, Ricardo Felipe
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2355076087945221	por
dc.description.resumo	Com o intuito de diminuir os riscos e incertezas associados à concessão de crédito, as instituições financeiras estão constantemente explorando métodos para aperfeiçoar o sistema de avaliação creditícia. No mesmo contexto, o crescimento no volume de transações com cartões de crédito resultou no aumento das fraudes, ocasionando perdas bilionárias anuais para as instituições financeiras. Logo, é fundamental que as empresas sejam capazes de detectar efetivamente transações fraudulentas. Uma maneira de minimizar as perdas decorrentes da inadimplência ou da fraude é utilizar métodos estatísticos que gerem resultados próximos à realidade, apresentando uma baixa margem de erro. No entanto, a grande dificuldade na execução desse processo é que esses tipos de dados financeiros são desbalanceados, isto é, observamos uma maior proporção de clientes adimplentes e transações legítimas (grupos majoritários) do que de clientes inadimplentes e transações fraudulentas (grupos minoritários). Esse desequilíbrio acarreta em um viés de classificação, uma vez que os algoritmos de aprendizagem tendem a classificar melhor as observações do grupo majoritário. Nesse sentido, este trabalho tem como proposta realizar um estudo comparativo da performance das máquinas de vetores suporte com a regressão logística na classificação de novas unidades amostrais. Esse estudo será realizado a partir de três conjuntos de dados financeiros com diferentes graus de desbalanceamento, considerando três contextos: (i) sem aplicar técnica alguma para lidar com o desbalanceamento dos conjuntos de dados; (ii) aplicando técnicas de pré-processamento de dados para lidar com os desbalanceamento dos conjuntos de dados; e (iii) utilizando a versão sensível ao custo dos classificadores originais para lidar com o desbalanceamento dos conjuntos de dados. A análise da performance dos classificadores dar-se-á a partir de medidas baseadas na matriz de confusão que tem se mostrado menos sensíveis ao desbalanceamento dos dados, tais como a G-média, o coeficiente de Mathews e o F-Score.	por
dc.publisher.initials	UFSCar	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/1753635846383745	por
dc.publisher.course	Estatística - Es	por
dc.contributor.advisor1orcid	https://orcid.org/0000-0001-5555-0526	por

Files in this item

Name:: Monografia TCC - Lucas Moura.pdf
Size:: 595.5Kb
Format:: PDF
Description:: Monografia TCC

View/Open

Name:: license_rdf
Size:: 810bytes
Format:: application/rdf+xml

View/Open

This item appears in the following Collection(s)

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil