Modelos para análise de textos: um comparativo do número de tópicos
| dc.contributor.advisor1 | Zuanetti, Daiane Aparecida | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/8352484284929824 | por |
| dc.contributor.author | Coelho Filho, Edvaldo Capobiango | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/8395942173646672 | por |
| dc.date.accessioned | 2024-10-22T11:04:23Z | |
| dc.date.available | 2024-10-22T11:04:23Z | |
| dc.date.issued | 2024-08-27 | |
| dc.description.abstract | Text modeling has gained significant visibility and popularity in recent years due to the large and ever-increasing amount of information present in daily life, consumed in various ways. For the efficiency and applicability of these models, the prior step of data preprocessing is of utmost importance, as it helps in the organization and treatment of texts. One branch within text analysis is topic modeling, whose methodologies aim to understand the topic structure that forms a document, segmenting multiple documents by their dominant topics (subjects) and thus simplifying the exploration of large volumes of textual data with the resulting dimensionality reduction. One of the pioneering methods in this context is the Mixture Model (MM), which assumes that each document will be composed of words from a single topic. Given this limitation, the technique of Latent Dirichlet Allocation (LDA) has gained considerable visibility due to its greater flexibility, as it allows each document to exhibit multiple topics. In both methodologies, model inference is generally given via a Bayesian approach. However, one of the characteristics of MM and LDA is the requirement that the user define the number of topics in the model from the outset. Therefore, the use of performance metrics becomes necessary after the application of the method, aiming to help in the definition and estimation of the best number of topics to be chosen. In this work, therefore, in addition to contrasting text analysis methodologies, we compare the metrics that measure the quality of the models and are used for choosing the number of topics. To do this, we apply the models and selection metrics to two sets of real data. | eng |
| dc.description.resumo | A modelagem de textos tem ganhado bastante visibilidade e popularidade nos últimos anos devido a grande e, cada vez maior, quantidade de informações presentes no dia a dia, consumidas de diversas maneiras. Para a eficiência e aplicabilidade destes modelos, é de suma importância a etapa de pré-processamento dos dados, que ajuda na organização e tratamento dos textos. Um ramo dentro da análise de textos é o de modelagem de tópicos, cujas metodologias visam entender a estrutura de tópicos (assuntos) que formam um documento, segmentando vários documentos por seus tópicos dominantes e simplificando assim a exploração de grandes volumes de dados textuais com a redução de dimensionalidade ocasionada. Um dos métodos pioneiros neste contexto é o Modelo de Mistura (MM), este que parte-se do pressuposto de que cada documento será composto de palavras advindas de um único tópico. Diante dessa limitação, tem ganhado bastante visibilidade o modelo de \textit{Latent Dirichlet Allocation} (LDA), por conta de sua maior flexibilidade, visto que permite que cada documento possa exibir vários tópicos. Em ambas as metodologias, a inferência é realizada, em geral, via abordagem Bayesiana. No entanto, uma das características do MM e LDA consiste na exigência de que o usuário defina de partida a quantidade de tópicos do modelo. Sendo assim, o uso de métricas de desempenho se faz necessário após a aplicação do método, visando a ajuda na definição e estimação do melhor número de tópicos a ser escolhido. Nesse trabalho, portanto, além de contrapor as metodologias de análises textuais, fazemos o comparativo entre as métricas que mensuram a qualidade dos modelos e são utilizadas para a escolha do número de tópicos. Para isso, aplicamos os modelos e as métricas de seleção em dois conjuntos de dados reais. | por |
| dc.description.sponsorship | Não recebi financiamento | por |
| dc.identifier.citation | COELHO FILHO, Edvaldo Capobiango. Modelos para análise de textos: um comparativo do número de tópicos. 2024. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/20846. | * |
| dc.identifier.uri | https://repositorio.ufscar.br/handle/20.500.14289/20846 | |
| dc.language.iso | por | por |
| dc.publisher | Universidade Federal de São Carlos | por |
| dc.publisher.address | Câmpus São Carlos | por |
| dc.publisher.initials | UFSCar | por |
| dc.publisher.program | Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs | por |
| dc.rights | Attribution 3.0 Brazil | * |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | * |
| dc.subject | Inferência Bayesiana | por |
| dc.subject | Latent Dirichlet Allocation | por |
| dc.subject | Métricas de desempenho | por |
| dc.subject | Modelagem de tópicos | por |
| dc.subject | Modelo de mistura | por |
| dc.subject | Bayesian approach | eng |
| dc.subject | Performance metrics | eng |
| dc.subject | Topic modeling | eng |
| dc.subject | Mixture model | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS | por |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA PARAMETRICA | por |
| dc.title | Modelos para análise de textos: um comparativo do número de tópicos | por |
| dc.title.alternative | Models for text analysis: a comparison of the number of topics | eng |
| dc.type | Dissertação | por |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Dissertação - Edvaldo Capobiango Coelho Filho.pdf
- Tamanho:
- 500.6 KB
- Formato:
- Adobe Portable Document Format
- Descrição: