dc.contributor.author | Reis, Leticia Ferreira Murça | |
dc.date.accessioned | 2023-07-06T16:24:31Z | |
dc.date.available | 2023-07-06T16:24:31Z | |
dc.date.issued | 2023-05-17 | |
dc.identifier.citation | REIS, Leticia Ferreira Murça. Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados. 2023. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18245. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/18245 | |
dc.description.abstract | Imbalanced data refers to a dataset where one class has significantly fewer observations than the other class. This can lead to poor performance of both machine learning algorithms and statistical models, since most of these tools assume that the data has the same proportion of observations in both categories. To deal with this challenge, several authors suggest the use of asymmetric link functions in binary regression, instead of the well-known symmetric link functions: logit and probit. Thus, it is possible not only to improve the predictive performance of the model, but also to reduce the bias in the estimation of parameters and probabilities. This is a solution that generates probabilistic models, which excel in decision-making compared to those that simply assign a single class without considering the associated probability. Therefore, this work aims to present new asymmetric link functions generated from the transformations of the Lomax distribution.
These functions include the Double Lomax (DLomax), Power Double Lomax (PDLomax), and Reverse Power Double Lomax (RPDLomax) distributions. The proposed functions have proven asymmetry and can be easily implemented in statistical softwares. In addition, the simulation study indicates that these functions can perform better than logistic regression in various imbalanced classification scenarios. They also proved to be promising in modeling real-world datasets, as in this work we obtained better results than classic link functions in two applications. | eng |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | por |
dc.language.iso | por | por |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights | CC0 1.0 Universal | * |
dc.rights.uri | http://creativecommons.org/publicdomain/zero/1.0/ | * |
dc.subject | Dados desbalanceados | por |
dc.subject | Distribuição Lomax | por |
dc.subject | Estimação Bayesiana | por |
dc.subject | Links assimétricos | por |
dc.subject | Regressão binária | por |
dc.title | Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados | por |
dc.title.alternative | Asymmetric Lomax models: a new approach to imbalanced binary data classification | eng |
dc.type | Dissertação | por |
dc.contributor.advisor1 | Louzada Neto, Francisco | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/0994050156415890 | por |
dc.description.resumo | A expressão "dados binários desbalanceados" refere-se a um conjunto de dados em que uma das classes apresenta significativamente menos observações do que a outra. Isso prejudica a performance tanto de algoritmos de aprendizado de máquina como de modelos estatísticos, visto que a maioria dessas ferramentas supõe que os dados apresentam a mesma proporção de observações nas duas categorias. Para lidar com esse desafio, vários autores sugerem o uso de funções de ligação assimétricas na regressão binária, em detrimento das conhecidas funções de ligação simétricas: \textit{logit} e \textit{probit}. Assim, é possível não só melhorar a performance preditiva do modelo, como também reduzir o viés na estimação de parâmetros e de probabilidades. Essa é uma solução que gera modelos probabilísticos, os quais se destacam na tomada de decisão em comparação com aqueles que simplesmente atribuem uma única classe, sem levar em consideração a probabilidade associada a ela. Portanto, o objetivo deste trabalho é introduzir novas funções de ligação assimétricas que são geradas por meio de transformações da distribuição Lomax. Essas funções incluem as distribuições Double Lomax (DLomax), Potência Double Lomax (PDLomax) e Reversa de Potência Double Lomax (RPDLomax). As funções propostas possuem assimetria comprovada e podem ser facilmente implementadas em \textit{softwares} estatísticos. Além disso, o estudo de simulações aponta que as funções de ligação propostas neste trabalho podem performar melhor que o \textit{link} logístico em diversos cenários de desbalanceamento. O uso dessas funções também se mostrou promissor na modelagem de dados reais, visto que neste trabalho obteve melhores métricas que as funções de ligação clássicas em duas aplicações. | por |
dc.publisher.initials | UFSCar | por |
dc.publisher.program | Programa de Pós-Graduação em Estatística - PPGEs | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO | por |
dc.description.sponsorshipId | 33001014045P7 | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/1853894627465547 | por |
dc.contributor.advisor1orcid | https://orcid.org/0000-0001-7815-9554 | por |