Estratégias de reamostragem aplicadas em problemas de classificação binária de dados financeiros

Sturaro, Rafael Setti Riedel

dc.contributor.author	Sturaro, Rafael Setti Riedel
dc.date.accessioned	2023-10-09T18:36:09Z
dc.date.available	2023-10-09T18:36:09Z
dc.date.issued	2023-08-22
dc.identifier.citation	STURARO, Rafael Setti Riedel. Estratégias de reamostragem aplicadas em problemas de classificação binária de dados financeiros. 2023. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18745.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/18745
dc.description.abstract	Many binary classification problems exhibit unbalanced classes, which consists of one of the two classes being significantly more numerous than the other. The minority class is the least representative, with far fewer individuals or objects than the majority class. In the context of financial data analysis, databases may be unbalanced. For example, in credit analysis, databases generally contain more observations referring to non-defaulting customers (majority class) than defaulting customers (minority class). Similarly, in fraud detection, databases generally contain more information on legitimate transactions (majority class) than on fraudulent transactions (minority class). This imbalance leads to a classification bias, since learning algorithms tend to classify observations from the majority group better. In this sense, this work aims to address resampling strategies (including subsampling, oversampling and hybrid methods) to classify, using logistic regression, customers applying for credit into defaulters or non-defaulters and transactions into legitimate or fraudulent.We intend to study comparatively the performance of logistic regression in classifying new instances in the following scenarios: (i) balanced training set using subsampling techniques; (ii) balanced training set using oversampling techniques; and (iii) set of balanced training using hybrid resampling techniques. We will conduct this comparative study in two contexts: (i) using all the variables in the data set; and (ii) selecting variables from the maximum likelihood estimates of the logistic regression coefficients with l1 regularisation.	eng
dc.description.sponsorship	Não recebi financiamento	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Aprendizado desbalanceado	por
dc.subject	Classificação de crédito	por
dc.subject	Detecção de fraude	por
dc.subject	Métodos de reamostragem	por
dc.subject	Imbalanced learning	eng
dc.subject	Credit scoring	eng
dc.subject	Fraud detection	eng
dc.subject	Resampling strategies	eng
dc.title	Estratégias de reamostragem aplicadas em problemas de classificação binária de dados financeiros	por
dc.title.alternative	Resampling strategies for financial binary data classification	eng
dc.type	TCC	por
dc.contributor.advisor1	Ferreira, Ricardo Felipe
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/2355076087945221	por
dc.description.resumo	Muitos problemas de classificação binária exibem classes desbalanceadas, o que consiste em uma das duas classes ser significantemente mais numerosa do que a outra. A classe minoritária é a menos representativa, possuindo uma quantidade bem menor de indivíduos ou objetos do que a classe majoritária. Na conjuntura de análise de dados financeiros, os bancos de dados podem ser desbalanceados. Por exemplo, em análise de crédito os bancos de dados contém, em geral, mais observações referentes a clientes adimplentes (classe majoritária) do que em relação aos clientes inadimplentes (classe minoritária). Da mesma maneira, em detecção de fraude os bancos de dados geralmente contém mais informações referentes a transações legítimas (classe majoritária) do que em relação a transações fraudulentas (classe minoritária). Esse desbalanceamento acarreta em um viés de classificação, já que os algoritmos de aprendizagem tendem a classificar melhor as observações do grupo majoritário. Nesse sentido, esse trabalho tem como proposta abordar estratégias de reamostragem (dentre elas, métodos de subamostragem, sobreamostragem e métodos híbridos) para classificar, através da regressão logística, os clientes solicitantes de crédito em adimplentes ou inadimplentes e transações em legítima ou fradulentas. Pretendemos estudar comparativamente a performance da regressão logística na classificação de novas instâncias nos seguintes cenários: (i) conjunto de treinamento balanceado por meio de técnicas de subamostragem; (ii) conjunto de treinamento balanceado por meio de técnicas de sobreamostragem; e (iii) conjunto de treinamento balanceado por meio de técnicas híbridas de reamostragem. Vamos conduzir esse estudo comparativo em dois contextos: (i) utilizando todas as variáveis do conjunto de dados; e (ii) realizando a seleção de variáveis a partir das estimativas de máxima verossimilhança dos coeficientes da regressão logística com regularização l1.	por
dc.publisher.initials	UFSCar	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/2772687643419754	por
dc.publisher.course	Estatística - Es	por
dc.contributor.advisor1orcid	https://orcid.org/0000-0001-5555-0526	por

Files in this item

Name:: Monografia - Rafael Setti.pdf
Size:: 1.099Mb
Format:: PDF
Description:: Monografia

View/Open

Name:: license_rdf
Size:: 810bytes
Format:: application/rdf+xml

View/Open

This item appears in the following Collection(s)

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil