Representações distribuídas de texto aplicadas em análise de sentimento de mensagens curtas e ruidosas

Bossolani, Carlos Augusto

dc.contributor.author	Bossolani, Carlos Augusto
dc.date.accessioned	2019-02-06T18:36:32Z
dc.date.available	2019-02-06T18:36:32Z
dc.date.issued	2018-12-14
dc.identifier.citation	BOSSOLANI, Carlos Augusto. Representações distribuídas de texto aplicadas em análise de sentimento de mensagens curtas e ruidosas. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2018. Disponível em: https://repositorio.ufscar.br/handle/ufscar/10917.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/10917
dc.description.abstract	The evolution of the Internet and the Web has given rise to a vast amount of text messages containing opinions. Although the importance of sentiment analysis has grown proportionately, the use of the traditional bag of words as a way to represent these messages computationally imposes serious limitations: the number of dimensions in the samples may be very high; information about the relative position of the words in the text is lost; the relation of synonymy is not captured, and no distinction is made between the different meanings of ambiguous words. Short messages, such as those posted on social media and instant messaging applications, often contain a lot of slang, abbreviations, phonetic spelling and emoticons, which aggravates the problem of computational representation. Lexical normalization techniques and semantic indexing, traditionally used to deal with these problems, depend on dictionaries and their maintenance is impractical given the speed of language evolution. Distributed text representations, which represent each word by a low dimensional vector, have the potential to bypass some of these shortcomings by capturing the similarity relationship among words, storing information about the contexts of their occurrence. Recent techniques have made it possible to obtain these vectors from the weights of an artificial neural network, which are optimized to maximize the probability of the contexts in which the word is observed. Later optimizations made it possible to generate these models with a much larger corpus, thus raising interest in these techniques. This work investigated and proved the hypothesis that the use of distributed text models overcomes the problems and disadvantages of the use bag of words in sentiment analysis in short and noisy messages, making it possible to dispense with the need for traditional lexical normalization techniques and semantic indexing, maintaining predictive power and reducing computational effort.	eng
dc.description.sponsorship	Não recebi financiamento	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights.uri	Acesso aberto	por
dc.subject	Análise de sentimento	por
dc.subject	Processamento de linguagem natural	por
dc.subject	Aprendizado de máquina	por
dc.subject	Sentiment analysis	eng
dc.subject	Natural language processing	eng
dc.subject	Machine learning	eng
dc.title	Representações distribuídas de texto aplicadas em análise de sentimento de mensagens curtas e ruidosas	por
dc.title.alternative	Distributed text representations applied in sentiment analysis of short and noisy messages	eng
dc.type	Dissertação	por
dc.contributor.advisor1	Almeida, Tiago Agostinho de
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/5368680512020633	por
dc.description.resumo	A evolução da Internet e da Web proporcionou o surgimento de uma quantidade vasta de mensagens de texto contendo opiniões. Embora a importância da análise de sentimento tenha crescido proporcionalmente, o uso da tradicional bag of words como forma de representar computacionalmente essas mensagens impõe sérias limitações: a quantidade de dimensões das amostras pode ser muito alta; a informação sobre a posição relativa das palavras no texto é perdida; não é capturada a relação de sinonímia, e não é feita distinção dos diferentes sentidos de palavras ambíguas. Mensagens curtas, como as postadas nas redes sociais e aplicativos de mensagens instantâneas, costumam ser repletas de gírias, abreviaturas, ortografia fonética e emoticons, o que agrava o problema da representação computacional. Técnicas de normalização léxica e indexação semântica, tradicionalmente utilizadas para lidar com esses problemas, dependem de dicionários, a manutenção dos quais é inviável dada a velocidade de evolução da língua. Representações distribuídas de texto, que representam cada palavra por um vetor de baixa dimensionalidade, têm o potencial de contornar algumas dessas deficiências, por capturar as relações de similaridades entre as palavras, armazenando informações sobre os contextos da sua ocorrência. Técnicas recentes possibilitaram obter esses vetores a partir dos pesos de uma rede neural artificial, que são otimizados para maximizar a probabilidade dos contextos em que a palavra é observada. Otimizações posteriores possibilitaram gerar esses modelos com corpus bem maiores, fazendo ressurgir o interesse nessas técnicas. Este trabalho de pesquisa investigou e confirmou a hipótese de que o uso de modelos de representação distribuída de texto contornam os problemas e desvantagens do uso de bag of words em análise de sentimento em mensagens curtas e ruidosas, dispensando a necessidade de técnicas tradicionais de normalização léxica e indexação semântica, mantendo a qualidade preditiva e reduzindo o esforço computacional.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC-So	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	por
dc.ufscar.embargo	Online	por
dc.publisher.address	Câmpus Sorocaba	por
dc.contributor.authorlattes	http://lattes.cnpq.br/3008025733135785	por

Files in this item

Name:: carlos_dissertacao_homologacao.pdf
Size:: 1.119Mb
Format:: PDF

View/Open

Name:: Encaminhamento_Carlos_assinado.pdf
Size:: 389.1Kb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Teses e dissertações

Show simple item record