Show simple item record

dc.contributor.authorSturaro, Rafael Setti Riedel
dc.date.accessioned2023-10-09T18:36:09Z
dc.date.available2023-10-09T18:36:09Z
dc.date.issued2023-08-22
dc.identifier.citationSTURARO, Rafael Setti Riedel. Estratégias de reamostragem aplicadas em problemas de classificação binária de dados financeiros. 2023. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18745.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/18745
dc.description.abstractMany binary classification problems exhibit unbalanced classes, which consists of one of the two classes being significantly more numerous than the other. The minority class is the least representative, with far fewer individuals or objects than the majority class. In the context of financial data analysis, databases may be unbalanced. For example, in credit analysis, databases generally contain more observations referring to non-defaulting customers (majority class) than defaulting customers (minority class). Similarly, in fraud detection, databases generally contain more information on legitimate transactions (majority class) than on fraudulent transactions (minority class). This imbalance leads to a classification bias, since learning algorithms tend to classify observations from the majority group better. In this sense, this work aims to address resampling strategies (including subsampling, oversampling and hybrid methods) to classify, using logistic regression, customers applying for credit into defaulters or non-defaulters and transactions into legitimate or fraudulent.We intend to study comparatively the performance of logistic regression in classifying new instances in the following scenarios: (i) balanced training set using subsampling techniques; (ii) balanced training set using oversampling techniques; and (iii) set of balanced training using hybrid resampling techniques. We will conduct this comparative study in two contexts: (i) using all the variables in the data set; and (ii) selecting variables from the maximum likelihood estimates of the logistic regression coefficients with l1 regularisation.eng
dc.description.sponsorshipNão recebi financiamentopor
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectAprendizado desbalanceadopor
dc.subjectClassificação de créditopor
dc.subjectDetecção de fraudepor
dc.subjectMétodos de reamostragempor
dc.subjectImbalanced learningeng
dc.subjectCredit scoringeng
dc.subjectFraud detectioneng
dc.subjectResampling strategieseng
dc.titleEstratégias de reamostragem aplicadas em problemas de classificação binária de dados financeirospor
dc.title.alternativeResampling strategies for financial binary data classificationeng
dc.typeTCCpor
dc.contributor.advisor1Ferreira, Ricardo Felipe
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/2355076087945221por
dc.description.resumoMuitos problemas de classificação binária exibem classes desbalanceadas, o que consiste em uma das duas classes ser significantemente mais numerosa do que a outra. A classe minoritária é a menos representativa, possuindo uma quantidade bem menor de indivíduos ou objetos do que a classe majoritária. Na conjuntura de análise de dados financeiros, os bancos de dados podem ser desbalanceados. Por exemplo, em análise de crédito os bancos de dados contém, em geral, mais observações referentes a clientes adimplentes (classe majoritária) do que em relação aos clientes inadimplentes (classe minoritária). Da mesma maneira, em detecção de fraude os bancos de dados geralmente contém mais informações referentes a transações legítimas (classe majoritária) do que em relação a transações fraudulentas (classe minoritária). Esse desbalanceamento acarreta em um viés de classificação, já que os algoritmos de aprendizagem tendem a classificar melhor as observações do grupo majoritário. Nesse sentido, esse trabalho tem como proposta abordar estratégias de reamostragem (dentre elas, métodos de subamostragem, sobreamostragem e métodos híbridos) para classificar, através da regressão logística, os clientes solicitantes de crédito em adimplentes ou inadimplentes e transações em legítima ou fradulentas. Pretendemos estudar comparativamente a performance da regressão logística na classificação de novas instâncias nos seguintes cenários: (i) conjunto de treinamento balanceado por meio de técnicas de subamostragem; (ii) conjunto de treinamento balanceado por meio de técnicas de sobreamostragem; e (iii) conjunto de treinamento balanceado por meio de técnicas híbridas de reamostragem. Vamos conduzir esse estudo comparativo em dois contextos: (i) utilizando todas as variáveis do conjunto de dados; e (ii) realizando a seleção de variáveis a partir das estimativas de máxima verossimilhança dos coeficientes da regressão logística com regularização l1.por
dc.publisher.initialsUFSCarpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAOpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADASpor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/2772687643419754por
dc.publisher.courseEstatística - Espor
dc.contributor.advisor1orcidhttps://orcid.org/0000-0001-5555-0526por


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil