Mostrar el registro sencillo del ítem
Modelo de classificação para dados desbalanceados: método SMOTE e variantes
dc.contributor.author | Nora, Andrielle Couto | |
dc.date.accessioned | 2024-02-28T21:45:16Z | |
dc.date.available | 2024-02-28T21:45:16Z | |
dc.date.issued | 2024-01-29 | |
dc.identifier.citation | NORA, Andrielle Couto. Modelo de classificação para dados desbalanceados: método SMOTE e variantes. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19545. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/19545 | |
dc.description.abstract | Often, in classification models, we encounter databases that have highly imbalanced classes, such as: rare disease diagnostic data, manufacturing defects, fraudulent transactions, etc. Training a model on a dataset with few observations of a particular class results in poor predictive performance, especially for observations belonging to the minority class. In this Undergraduate Thesis, we present and compare different variants of the Synthetic Minority Over-sampling TEchnique (SMOTE) method for oversampling imbalanced data used in classification models, specifically Logistic Regression, in order to demonstrate how these techniques can improve the ability to identify and predict observations from the minority class in realistic and imbalanced scenarios, as well as to determine which combination of sampling technique and Logistic Regression classification model leads to better performance. | eng |
dc.description.sponsorship | Não recebi financiamento | por |
dc.language.iso | por | por |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Dados desbalanceados | por |
dc.subject | Modelo de classificação | por |
dc.subject | Regressão logística | por |
dc.subject | Sobreamostragem | por |
dc.subject | Método SMOTE | por |
dc.title | Modelo de classificação para dados desbalanceados: método SMOTE e variantes | por |
dc.title.alternative | Classification model for unbalanced data: SMOTE method and variants | eng |
dc.type | TCC | por |
dc.contributor.advisor1 | Diniz, Carlos Alberto Ribeiro | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/3277371897783194 | por |
dc.description.resumo | Frequentemente, em modelos de classificação, nos deparamos com bancos de dados que possuem classes muito desbalanceadas, como por exemplo: dados de diagnóstico de doenças raras, defeitos de fabricação, transações fraudulentas, etc. Treinar um modelo em um conjunto de dados com poucas observações de uma determinada classe resulta em um desempenho preditivo ruim do mesmo, especialmente para as observações pertencentes à classe minoritária. Neste Trabalho de Conclusão de Curso (TCC), apresentamos e comparamos diferentes variantes do método SMOTE (Synthetic Minority Over-sampling TEchnique) de sobreamostragem de dados desbalanceados utilizados em modelos de classificação, especificamente, a Regressão Logística, a fim de demonstrar como essas técnicas podem melhorar a capacidade de identificar e prever observações da classe minoritária em cenários realistas e desbalanceados, além de determinar qual combinação entre a técnica de amostragem e o modelo de classificação de Regressão Logística leva a um melhor desempenho. | por |
dc.publisher.initials | UFSCar | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/7319129806979557 | por |
dc.publisher.course | Estatística - Es | por |
dc.contributor.advisor1orcid | https://orcid.org/0000-0003-3464-1108 | por |