Modelos para análise de textos: um comparativo do número de tópicos

dc.contributor.advisor1Zuanetti, Daiane Aparecida
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8352484284929824por
dc.contributor.authorCoelho Filho, Edvaldo Capobiango
dc.contributor.authorlatteshttp://lattes.cnpq.br/8395942173646672por
dc.date.accessioned2024-10-22T11:04:23Z
dc.date.available2024-10-22T11:04:23Z
dc.date.issued2024-08-27
dc.description.abstractText modeling has gained significant visibility and popularity in recent years due to the large and ever-increasing amount of information present in daily life, consumed in various ways. For the efficiency and applicability of these models, the prior step of data preprocessing is of utmost importance, as it helps in the organization and treatment of texts. One branch within text analysis is topic modeling, whose methodologies aim to understand the topic structure that forms a document, segmenting multiple documents by their dominant topics (subjects) and thus simplifying the exploration of large volumes of textual data with the resulting dimensionality reduction. One of the pioneering methods in this context is the Mixture Model (MM), which assumes that each document will be composed of words from a single topic. Given this limitation, the technique of Latent Dirichlet Allocation (LDA) has gained considerable visibility due to its greater flexibility, as it allows each document to exhibit multiple topics. In both methodologies, model inference is generally given via a Bayesian approach. However, one of the characteristics of MM and LDA is the requirement that the user define the number of topics in the model from the outset. Therefore, the use of performance metrics becomes necessary after the application of the method, aiming to help in the definition and estimation of the best number of topics to be chosen. In this work, therefore, in addition to contrasting text analysis methodologies, we compare the metrics that measure the quality of the models and are used for choosing the number of topics. To do this, we apply the models and selection metrics to two sets of real data.eng
dc.description.resumoA modelagem de textos tem ganhado bastante visibilidade e popularidade nos últimos anos devido a grande e, cada vez maior, quantidade de informações presentes no dia a dia, consumidas de diversas maneiras. Para a eficiência e aplicabilidade destes modelos, é de suma importância a etapa de pré-processamento dos dados, que ajuda na organização e tratamento dos textos. Um ramo dentro da análise de textos é o de modelagem de tópicos, cujas metodologias visam entender a estrutura de tópicos (assuntos) que formam um documento, segmentando vários documentos por seus tópicos dominantes e simplificando assim a exploração de grandes volumes de dados textuais com a redução de dimensionalidade ocasionada. Um dos métodos pioneiros neste contexto é o Modelo de Mistura (MM), este que parte-se do pressuposto de que cada documento será composto de palavras advindas de um único tópico. Diante dessa limitação, tem ganhado bastante visibilidade o modelo de \textit{Latent Dirichlet Allocation} (LDA), por conta de sua maior flexibilidade, visto que permite que cada documento possa exibir vários tópicos. Em ambas as metodologias, a inferência é realizada, em geral, via abordagem Bayesiana. No entanto, uma das características do MM e LDA consiste na exigência de que o usuário defina de partida a quantidade de tópicos do modelo. Sendo assim, o uso de métricas de desempenho se faz necessário após a aplicação do método, visando a ajuda na definição e estimação do melhor número de tópicos a ser escolhido. Nesse trabalho, portanto, além de contrapor as metodologias de análises textuais, fazemos o comparativo entre as métricas que mensuram a qualidade dos modelos e são utilizadas para a escolha do número de tópicos. Para isso, aplicamos os modelos e as métricas de seleção em dois conjuntos de dados reais.por
dc.description.sponsorshipNão recebi financiamentopor
dc.identifier.citationCOELHO FILHO, Edvaldo Capobiango. Modelos para análise de textos: um comparativo do número de tópicos. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20846.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/20.500.14289/20846
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.publisher.addressCâmpus São Carlospor
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEspor
dc.rightsAttribution 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/*
dc.subjectInferência Bayesianapor
dc.subjectLatent Dirichlet Allocationpor
dc.subjectMétricas de desempenhopor
dc.subjectModelagem de tópicospor
dc.subjectModelo de misturapor
dc.subjectBayesian approacheng
dc.subjectPerformance metricseng
dc.subjectTopic modelingeng
dc.subjectMixture modeleng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICApor
dc.titleModelos para análise de textos: um comparativo do número de tópicospor
dc.title.alternativeModels for text analysis: a comparison of the number of topicseng
dc.typeDissertaçãopor

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação - Edvaldo Capobiango Coelho Filho.pdf
Tamanho:
500.6 KB
Formato:
Adobe Portable Document Format
Descrição: