Mostrar registro simples

dc.contributor.authorde la Cruz Huayanay, Alex
dc.date.accessioned2023-09-22T17:01:47Z
dc.date.available2023-09-22T17:01:47Z
dc.date.issued2023-08-11
dc.identifier.citationDE LA CRUZ HUAYANAY, Alex. Modelos alternativos para classificação em dados desbalanceados. 2023. Tese (Doutorado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18630.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/18630
dc.description.abstractIn binary classification, the most used method is logistic regression model. However, several authors indicate that this model is not suitable when the data are imbalanced; for this, different asymmetric link functions as alternatives for binary response models have been proposed, for example, in recent years the power (P) and reverse power (RP) distributions have been presented. In this work we develop new properties of the P and RP distributions in the context of models for classification on imbalanced data. Also, some metrics for classification are studied through a simulation study, and an application of the studied methodology is presented. In addition, we extend the binary regression models to the case of mixed models for binary classification in the context of a longitudinal studies. To evaluate the performance of the models, a simulation study is performed. Additionally, an application is considered concerning the studied methodology in a dataset in which the response is longitudinal and imbalanced. For parameter estimation the Bayesian approach is considered using a MCMC procedure through the No-U-Turn Sampler (NUTS) algorithm. Further predictive checks, randomized Bayesian quantile residuals and a measure of Bayesian influence are considered for model diagnosis. Different models are compared using model selection criteria.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectMétricas para classificação bináriapor
dc.subjectPotência Gumbelpor
dc.subjectDistribuição potênciapor
dc.subjectLigação assimétricapor
dc.subjectDados desbalanceadospor
dc.subjectModelo de efeitos mistospor
dc.subjectMetrics for binary classificationeng
dc.subjectPower Gumbeleng
dc.subjectPower distributioneng
dc.subjectAsymmetric linkpor
dc.subjectImbalanced dataeng
dc.subjectMixed-effects modeleng
dc.titleModelos alternativos para classificação em dados desbalanceadospor
dc.title.alternativeAlternative models for classification in imbalanced dataeng
dc.typeTesepor
dc.contributor.advisor1Bazán Guzmán, Jorge Luis
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8040998023074358por
dc.description.resumoNa classificação binária o método mais usado é o modelo de regressão logística. No entanto, vários autores indicam que esse modelo não é adequado quando os dados são desbalanceados. Diante disso, diferentes funções de ligação assimétrica, como alternativas para modelos de resposta binária, foram propostas; por exemplo, nos últimos anos foram estudadas as distribuições potência (P) e reversa de potência (RP). Neste trabalho desenvolvemos novas propriedades das distribuições P e RP no contexto de modelos para classificação em dados desbalanceados. Também, algumas métricas para classificação são estudadas através de um estudo de simulação, e uma aplicação da metologia estudada é apresentada. Além do mais, estudamos a extensão dos modelos de regressão binária para o caso misto em classificação binária no contexto de estudos longitudinais. Para avaliar o performance deste tipo de modelos apresentamos um estudo de simulação. Adicionalmente, mostramos uma aplicação da metodologia estudada para um conjunto de dados em que a variável resposta é longitudinal e desbalanceada. Para o processo de estimação dos parâmetros consideramos uma abordagem bayesiana usando um procedimento MCMC através do algoritmo No-U-Turn Sampler (NUTS). Verificações preditivas a posteriori, resíduos quantílicos aleatorizados Bayesianos e uma medida de influência bayesiana são considerados para o diagnóstico do modelo longitudinal. Diferentes modelos são comparados usando critérios de comparação de modelos.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEspor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICApor
dc.description.sponsorshipId001por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/5174900495252139por
dc.contributor.authororcidhttps://orcid.org/0000-0003-0746-0803por


Arquivos deste item

Thumbnail
Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Exceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivs 3.0 Brazil