Show simple item record

dc.contributor.authorMoura, Lucas Fernando
dc.date.accessioned2024-02-27T12:58:27Z
dc.date.available2024-02-27T12:58:27Z
dc.date.issued2024-01-29
dc.identifier.citationMOURA, Lucas Fernando. Classificação binária de dados financeiros em problemas com classes desbalanceadas. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19504.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/19504
dc.description.abstractIn order to mitigate the risks and uncertainties associated with credit granting, financial institutions are constantly exploring methods to enhance the credit evaluation system. In the same context, the growth in credit card transactions has led to an increase in fraud, resulting in billions of dollars in annual losses for financial institutions. Therefore, it is crucial for companies to effectively detect fraudulent transactions. One way to minimize losses due to default or fraud is to use statistical methods that yield results close to reality, presenting a low margin of error. However, the major challenge in executing this process is that such financial data is imbalanced, meaning there is a higher proportion of non-defaulting customers and legitimate transactions (majority groups) than delinquent customers and fraudulent transactions (minority groups). This imbalance leads to a classification bias, as learning algorithms tend to classify observations from the majority group better. In this context, this work aims to conduct a comparative study of the performance of support vector machines and logistic regression in classifying new sample units. This study will be carried out using three financial datasets with different degrees of imbalance, considering three contexts: (i) without applying any technique to handle the imbalance of the datasets; (ii) applying data preprocessing techniques to handle the imbalance of the datasets; and (iii) using the cost-sensitive version of the original classifiers to handle the imbalance of the datasets. The analysis of classifier performance will be based on measures derived from the confusion matrix that have been shown to be less sensitive to data imbalance, such as the G-mean, Matthews correlation coefficient, and F-score.eng
dc.description.sponsorshipNão recebi financiamentopor
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectClassificadores sensíveis ao custopor
dc.subjectDesbalanceamento de classespor
dc.subjectMáquinas de vetores suportepor
dc.subjectMétodos de pré-processamento de dadospor
dc.subjectRegressão logísticapor
dc.titleClassificação binária de dados financeiros em problemas com classes desbalanceadaspor
dc.title.alternativeBinary classification of financial data in problems with imbalanced dataeng
dc.typeTCCpor
dc.contributor.advisor1Ferreira, Ricardo Felipe
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/2355076087945221por
dc.description.resumoCom o intuito de diminuir os riscos e incertezas associados à concessão de crédito, as instituições financeiras estão constantemente explorando métodos para aperfeiçoar o sistema de avaliação creditícia. No mesmo contexto, o crescimento no volume de transações com cartões de crédito resultou no aumento das fraudes, ocasionando perdas bilionárias anuais para as instituições financeiras. Logo, é fundamental que as empresas sejam capazes de detectar efetivamente transações fraudulentas. Uma maneira de minimizar as perdas decorrentes da inadimplência ou da fraude é utilizar métodos estatísticos que gerem resultados próximos à realidade, apresentando uma baixa margem de erro. No entanto, a grande dificuldade na execução desse processo é que esses tipos de dados financeiros são desbalanceados, isto é, observamos uma maior proporção de clientes adimplentes e transações legítimas (grupos majoritários) do que de clientes inadimplentes e transações fraudulentas (grupos minoritários). Esse desequilíbrio acarreta em um viés de classificação, uma vez que os algoritmos de aprendizagem tendem a classificar melhor as observações do grupo majoritário. Nesse sentido, este trabalho tem como proposta realizar um estudo comparativo da performance das máquinas de vetores suporte com a regressão logística na classificação de novas unidades amostrais. Esse estudo será realizado a partir de três conjuntos de dados financeiros com diferentes graus de desbalanceamento, considerando três contextos: (i) sem aplicar técnica alguma para lidar com o desbalanceamento dos conjuntos de dados; (ii) aplicando técnicas de pré-processamento de dados para lidar com os desbalanceamento dos conjuntos de dados; e (iii) utilizando a versão sensível ao custo dos classificadores originais para lidar com o desbalanceamento dos conjuntos de dados. A análise da performance dos classificadores dar-se-á a partir de medidas baseadas na matriz de confusão que tem se mostrado menos sensíveis ao desbalanceamento dos dados, tais como a G-média, o coeficiente de Mathews e o F-Score.por
dc.publisher.initialsUFSCarpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICApor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/1753635846383745por
dc.publisher.courseEstatística - Espor
dc.contributor.advisor1orcidhttps://orcid.org/0000-0001-5555-0526por


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil