dc.contributor.author | Shimizu, Gilson Yuuji | |
dc.date.accessioned | 2021-10-18T19:47:04Z | |
dc.date.available | 2021-10-18T19:47:04Z | |
dc.date.issued | 2021-10-15 | |
dc.identifier.citation | SHIMIZU, Gilson Yuuji. Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis. 2021. Tese (Doutorado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/15024. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/15024 | |
dc.description.abstract | Machine learning methods are divided into two main groups: supervised and unsupervised
methods. In the first part of this work, we develop a method for creating prediction bands
that can be applied to supervised problems. Our approach is based on conformal methods,
which are very appealing because they create prediction bands that control average coverage
assuming solely i.i.d. data. It is also often desirable to control conditional coverage, that
is, coverage for every new testing point. However, without strong assumptions, conditional
coverage is unachievable. Given this limitation, the literature has focused on methods with
asymptotical conditional coverage. In order to obtain this property, these methods require
strong conditions on the dependence between the target variable and the features. We
introduce two conformal methods based on conditional density estimators that do not
depend on this type of assumption to obtain asymptotic conditional coverage: Dist-split
and CD-split. While Dist-split asymptotically obtains optimal intervals, which are easier to
interpret than general regions, CD-split obtains optimal size regions, which are smaller than
intervals. CD-split also obtains local coverage by creating prediction bands locally on a
partition of the features space. This partition is data-driven and scales to high-dimensional
settings. In a wide variety of simulated scenarios, our methods have a better control of
conditional coverage and have smaller length than previously proposed methods.
In the second part, in a context of unsupervised methods, we develop a new version of
the Latent Dirichlet Allocation (LDA) model. The LDA model is a popular method for
creating mixed-membership clusters. Despite having been originally developed for text
analysis, LDA has been used for a wide range of other applications. We propose a new
formulation for the LDA model which incorporates covariates. In this model, a negative
binomial regression is embedded within LDA, enabling straight-forward interpretation of
the regression coefficients and the analysis of the quantity of cluster-specific elements in
each sampling units (instead of the analysis being focused on modeling the proportion of
each cluster, as in Structural Topic Models). We use slice sampling within a Gibbs sampling
algorithm to estimate model parameters. We rely on simulations to show how our algorithm
is able to successfully retrieve the true parameter values. The model is illustrated using
real data sets from three different areas: text-mining of Coronavirus articles, analysis of
grocery shopping baskets, and ecology of tree species on Barro Colorado Island (Panama).
This model allows the identification of mixed-membership clusters in discrete data and
provides inference on the relationship between covariates and the abundance of these
clusters. | eng |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | por |
dc.language.iso | eng | eng |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Aprendizagem de máquina | por |
dc.subject | Análise de texto | por |
dc.subject | Alocação latente de Dirichlet (LDA) | por |
dc.subject | Bandas de predição | por |
dc.subject | Predição conformal | por |
dc.subject | Machine learning | eng |
dc.subject | Text analysis | eng |
dc.subject | Latent Dirichlet allocation (LDA) | eng |
dc.subject | Prediction bands | eng |
dc.subject | Conformal prediction | eng |
dc.title | Bandas de predição usando densidade condicional estimada e um modelo LDA com covariáveis | por |
dc.title.alternative | Prediction bands using estimated conditional density and an LDA model with covariates | eng |
dc.type | Tese | por |
dc.contributor.advisor1 | Izbicki, Rafael | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/9991192137633896 | por |
dc.description.resumo | Métodos de machine learning são basicamente divididos em dois grandes grupos: métodos
supervisionados e não supervisionados. Na primeira parte deste trabalho nós desenvolvemos um método para criação de bandas de predição que pode ser aplicado em problemas
supervisionados. Nossa abordagem é baseada em métodos conformal, que são interessantes porque criam bandas de predição que controlam a cobertura média assumindo
somente dados i.i.d.. Geralmente também é desejável controlar a cobertura condicional,
ou seja, a cobertura para toda nova amostra de teste. Contudo, sem fortes suposições,
a cobertura condicional é inatingível. Dada esta limitação, a literatura tem focado em
métodos com cobertura condicional assintótica. A fim de se obter esta propriedade, estes
métodos requerem fortes suposições sobre a dependência entre a variável resposta e as
características. Nós introduzimos dois métodos conformal baseados em estimadores de
densidade condicionais que não dependem deste tipo de suposição para obter cobertura
condicional assintótica: Dist-split e CD-split. Enquanto Dist-split obtém intervalos ótimos
assintoticamente, que são mais fáceis de interpretar do que regiões de confiança, CD-split
obtém regiões de tamanho ótimo, que são menores do que intervalos. CD-split também
obtém cobertura local pela criação de bandas de predição localmente numa partição do
espaço de características. Esta partição é baseada em dados e permite trabalhar com dados
em alta dimensão. Numa grande variedade de cenários simulados, nossos métodos tem
melhor controle da cobertura condicional e tem menores comprimentos do que métodos
propostos anteriores.
Na segunda parte, num contexto de métodos não supervisionados, estudamos uma nova
versão do modelo de Alocação Latente Dirichlet (LDA). O modelo LDA é um método
popular para criação de mixed-membership clusters. Apesar de ter ficado conhecido
na análise de texto, LDA tem sido usado em uma variedade de outras aplicações. Nós
propomos uma nova formulação para o modelo LDA que incorpora covariáveis. Neste
modelo, uma regressão binomial negativa é embutida dentro do LDA, possibilitando uma
interpretação direta dos coeficientes de regressão e análise da quantidade de elementos
específicos dos clusters em cada unidade amostral (ao invés da análise ser focada em modelar
a proporção de cada cluster, como nos Modelos de Tópicos Estruturados). Nó usamos
slice sampling dentro de um algoritmo de Gibbs sampling para estimar os parâmetros. E
usamos simulações para mostrar como nosso algoritmo é capaz de estimar com sucesso os verdadeiros parâmetros do modelo. O modelo é ilustrado usando conjuntos de dados reais
de três diferentes áreas: mineração de texto de artigos sobre coronavírus, análise de cestas
de supermercados, e análise de espécies de árvores na Ilha de Barro Colorado (Panama).
Este modelo permite a identificação de mixed-membership clusters em dados discretos e
fornece inferências sobre o relacionamento entre covariáveis e a abundância destes clusters. | por |
dc.publisher.initials | UFSCar | por |
dc.publisher.program | Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs | por |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA | por |
dc.description.sponsorshipId | CAPES: Código de Financiamento 001 | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/7533681983634233 | por |