dc.contributor.author | Sturaro, Rafael Setti Riedel | |
dc.date.accessioned | 2023-10-09T18:36:09Z | |
dc.date.available | 2023-10-09T18:36:09Z | |
dc.date.issued | 2023-08-22 | |
dc.identifier.citation | STURARO, Rafael Setti Riedel. Estratégias de reamostragem aplicadas em problemas de classificação binária de dados financeiros. 2023. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18745. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/18745 | |
dc.description.abstract | Many binary classification problems exhibit unbalanced classes, which consists of one of the two classes being significantly more numerous than the other. The minority class is the least representative, with far fewer individuals or objects than the majority class. In the context of financial data analysis, databases may be unbalanced. For example, in credit analysis, databases generally contain more observations referring to non-defaulting customers (majority class) than defaulting customers (minority class). Similarly, in fraud detection, databases generally contain more information on legitimate transactions (majority class) than on fraudulent transactions (minority class). This imbalance leads to a classification bias, since learning algorithms tend to classify observations from the majority group better. In this sense, this work aims to address resampling strategies (including subsampling, oversampling and hybrid methods) to classify, using logistic regression, customers applying for credit into defaulters or non-defaulters and transactions into legitimate or fraudulent.We intend to study comparatively the performance of logistic regression in classifying new instances in the following scenarios: (i) balanced training set using subsampling techniques; (ii) balanced training set using oversampling techniques; and (iii) set of balanced training using hybrid resampling techniques. We will conduct this comparative study in two contexts: (i) using all the variables in the data set; and (ii) selecting variables from the maximum likelihood estimates of the logistic regression coefficients with l1 regularisation. | eng |
dc.description.sponsorship | Não recebi financiamento | por |
dc.language.iso | por | por |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Aprendizado desbalanceado | por |
dc.subject | Classificação de crédito | por |
dc.subject | Detecção de fraude | por |
dc.subject | Métodos de reamostragem | por |
dc.subject | Imbalanced learning | eng |
dc.subject | Credit scoring | eng |
dc.subject | Fraud detection | eng |
dc.subject | Resampling strategies | eng |
dc.title | Estratégias de reamostragem aplicadas em problemas de classificação binária de dados financeiros | por |
dc.title.alternative | Resampling strategies for financial binary data classification | eng |
dc.type | TCC | por |
dc.contributor.advisor1 | Ferreira, Ricardo Felipe | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/2355076087945221 | por |
dc.description.resumo | Muitos problemas de classificação binária exibem classes desbalanceadas, o que consiste em uma das duas classes ser significantemente mais numerosa do que a outra. A classe minoritária é a menos representativa, possuindo uma quantidade bem menor de indivíduos ou objetos do que a classe majoritária. Na conjuntura de análise de dados financeiros, os bancos de dados podem ser desbalanceados. Por exemplo, em análise de crédito os bancos de dados contém, em geral, mais observações referentes a clientes adimplentes (classe majoritária) do que em relação aos clientes inadimplentes (classe minoritária). Da mesma maneira, em detecção de fraude os bancos de dados geralmente contém mais informações referentes a transações legítimas (classe majoritária) do que em relação a transações fraudulentas (classe minoritária). Esse desbalanceamento acarreta em um viés de classificação, já que os algoritmos de aprendizagem tendem a classificar melhor as observações do grupo majoritário. Nesse sentido, esse trabalho tem como proposta abordar estratégias de reamostragem (dentre elas, métodos de subamostragem, sobreamostragem e métodos híbridos) para classificar, através da regressão logística, os clientes solicitantes de crédito em adimplentes ou inadimplentes e transações em legítima ou fradulentas. Pretendemos estudar comparativamente
a performance da regressão logística na classificação de novas instâncias nos seguintes cenários: (i) conjunto de treinamento balanceado por meio de técnicas de subamostragem; (ii) conjunto de treinamento balanceado por meio de técnicas de sobreamostragem; e (iii) conjunto de treinamento balanceado por meio de técnicas híbridas de reamostragem. Vamos conduzir esse estudo comparativo em dois contextos: (i) utilizando todas as variáveis do conjunto de dados; e (ii) realizando a seleção de variáveis a partir das estimativas de máxima verossimilhança dos coeficientes da regressão logística com regularização l1. | por |
dc.publisher.initials | UFSCar | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/2772687643419754 | por |
dc.publisher.course | Estatística - Es | por |
dc.contributor.advisor1orcid | https://orcid.org/0000-0001-5555-0526 | por |