Vector representation of texts applied to prediction models

dc.contributor.advisor1Izbicki, Rafael
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9991192137633896por
dc.contributor.authorStern, Deborah Bassi
dc.contributor.authorlatteshttp://lattes.cnpq.br/0580971589615088por
dc.date.accessioned2020-03-27T16:25:42Z
dc.date.available2020-03-27T16:25:42Z
dc.date.issued2020-03-09
dc.description.abstractNatural Language Processing has gone through substantial changes over time. It was only recently that statistical approaches started receiving attention. The Word2Vec model is one of these. It is a shallow neural network designed to fit vectorial representations of words according to their syntactic and semantic values. The word embeddings acquired by this method are state-of-art. This method has many uses, one of which is the fitting of prediction models based on texts. It is common in the literature for a text to be represented as the mean of its word embeddings. The resulting vector is then used in the predictive model as an explanatory variables. In this dissertation, we propose getting more information of text by adding other summary statistics besides the mean, such as other moments and quantiles. The improvement of the prediction models is studied in real datasets.eng
dc.description.resumoProcessamento de linguagem natural sofreu uma grande mudança com o tempo. Abordagens estatísticas passaram a ganhar atenção apenas recentemente. O modelo word2vec é uma destas. Ele é uma rede neural rasa desenhada para ajustar representações vetoriais de palavras segundo seus valores semânticos e sintáticos. As representações de palavras obtidas por este método são o estado da arte. Este método tem muitas aplicações, como permitir o ajuste de modelos preditivos baseadas em textos. Na literatura é comum um texto ser representado pela média das representações vetorias das palavras que o compõem. O vetor resultante é então incluído como variável explicativa no modelo. Nesta dissertação propomos a obtenção de mais informação sobre o texto através de outras estatísticas descritivas além da média, como outros momentos e quantis. A melhora dos modelos preditivos é estudada com dados reais.por
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.description.sponsorshipIdCAPES: Código de Financiamento 001por
dc.identifier.citationSTERN, Deborah Bassi. Vector representation of texts applied to prediction models. 2020. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2020. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/12362.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/20.500.14289/12362
dc.language.isoengpor
dc.publisherUniversidade Federal de São Carlospor
dc.publisher.addressCâmpus São Carlospor
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEspor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectProcessamento de linguagem naturalpor
dc.subjectRedes neuraispor
dc.subjectRepresentação vetorial de palavraspor
dc.subjectModelos de prediçãopor
dc.subjectNatural language processingeng
dc.subjectNeural networkseng
dc.subjectWordVectorseng
dc.subjectPrediction modelseng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICApor
dc.titleVector representation of texts applied to prediction modelseng
dc.title.alternativeRepresentações vetoriais de textos aplicados a modelos preditivospor
dc.typeDissertaçãopor

Arquivos

Pacote Original

Agora exibindo 1 - 2 de 2
Carregando...
Imagem de Miniatura
Nome:
dissertacao.pdf
Tamanho:
1.01 MB
Formato:
Adobe Portable Document Format
Descrição:
Carregando...
Imagem de Miniatura
Nome:
pipges-ufscar_cartacomprovante_.pdf
Tamanho:
483.9 KB
Formato:
Adobe Portable Document Format
Descrição: