Mostrar el registro sencillo del ítem

dc.contributor.authorMassoni, Gabriela
dc.date.accessioned2021-05-08T08:10:04Z
dc.date.available2021-05-08T08:10:04Z
dc.date.issued2021-03-03
dc.identifier.citationMASSONI, Gabriela. Análise de textos por meio de processos estocásticos na representação word2vec. 2021. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14241.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/14241
dc.description.abstractWithin the field of Natural Language Processing (NLP), the word2vec model has been extensively explored in the field of vector representation of words. It is a neural network that is based on the hypothesis that similar words have similar contexts. In the literature in general, the text is represented by the mean vector of the representations of its words, which, in turn, is used as an explanatory variable in predictive models. An alternative is, in addition to averages, to use other measures, such as standard deviation and position measures. However, the use of these measures assumes the order of the words does not matter. Thus, in this dissertation we explore the use of stochastic processes, in particular, Time Series Models and Hidden Markov Models (HMM), to incorporate the "chronological" order of words in the construction of explanatory variables from the vector representation given by word2vec. The impact of this approach is measured with the quality of the predictive models of real data and compared to the usual ones. For the analysed data, the proposed approaches have a result that is superior to or equivalent to the usual approaches in most cases.eng
dc.description.sponsorshipConselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectRepresentação vetorial de palavraspor
dc.subjectModelos de prediçãopor
dc.subjectProcessamento de linguagem naturalpor
dc.subjectProcessos estocásticospor
dc.subjectWord vector representationeng
dc.subjectPrediction modelseng
dc.subjectNatural language processingeng
dc.subjectStochastic processeng
dc.titleAnálise de textos por meio de processos estocásticos na representação word2vecpor
dc.title.alternativeText mining with stochastic process in word2vec representationeng
dc.typeDissertaçãopor
dc.contributor.advisor1Stern, Rafael Bassi
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7846211197320014por
dc.description.resumoDentro do campo de Processamento de Linguagem Natural (NLP), o modelo word2vec vêm sendo bastante explorado no campo da representação vetorial de palavras. Ele é uma rede neural que se baseia na hipótese de que palavras semelhantes tem contextos semelhantes. Na literatura em geral, o texto é representado pelo vetor de médias das representações das suas palavras, que, por sua vez, é utilizado como variável explicativa em modelos preditivos. Um alternativa é, além da médias, utilizar outras medidas, como desvio-padrão e medidas de posição. Porém, o uso destas medidas supõe que a ordem das palavras não importa. Assim, nesta dissertação exploramos o uso de processos estocásticos, em particular, Modelos de Série Temporal e Modelos Ocultos de Markov (HMM), para incorporar a ordem "cronológica" das palavras na construção das variáveis explicativas a partir da representação vetorial dada pelo word2vec. O impacto desta abordagem é medido com a qualidade dos modelos preditivos aplicados à dados reais e comparado às abordagens usuais. Para os dados analisados, as abordagens propostas tiveram um resultado superior ou equivalente às abordagens usuais na maioria dos casos.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEspor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::INFERENCIA EM PROCESSOS ESTOCASTICOSpor
dc.description.sponsorshipIdCNPQ: 131978/2019-5por
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/0694571733841497por


Ficheros en el ítem

Thumbnail
Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 Brazil