Show simple item record

dc.contributor.authorSilva, Jéssica Rodrigues da
dc.date.accessioned2019-09-06T19:06:09Z
dc.date.available2019-09-06T19:06:09Z
dc.date.issued2019-07-03
dc.identifier.citationSILVA, Jéssica Rodrigues da. Geração de vetores de sentido para o português. 2019. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11792.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/11792
dc.description.abstractNumerical vector representations are able to represent from words to meanings, in a low-dimensional continuous space. These representations are based on distributional modeling, where the context in which the word occurs is taken into account for vector generation. The word representations, known as word embeddings or word vectors (Word2vec, FastText, Wang2vec and Glove), which have been widely used until now, have an important limitation: they produce a single vector representation for each word, ignoring the fact that ambiguous words can represent different meanings (different contexts). This mixture of meanings can be a problem for many applications. For example, in a language comprehension task, using the vector of an ambiguous word as "bank", all possible meanings --such as financial institution, blood bank, or furniture item --will be mixed into a single numerical vector, causing an erroneous semantic interpretation of the sentence in which it occurs. Over the last few years, representations of meanings, known as sense embeddings or sense vectors, have proven to be able to model syntactic and semantic knowledge and have been used in NLP applications. By being able to transform the various meanings of an ambiguous word into numerical vectors, sense vectors can be applied to Word Sense Disambiguation (WSD). Thus, this work generated and evaluated sense vectors for Portuguese (PT-BR and PT-EU), and showed that they overcome traditional vectors in intrinsic and extrinsic NLP tasks, since they are capable of dealing with lexical ambiguity. To the best of our knowledge, this is the first work to address the geneation and evaluation of sense vectors for Portuguese.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rights.uriAcesso abertopor
dc.subjectVetores de sentidopor
dc.subjectDesambiguação lexical de sentidospor
dc.subjectVetores de palavrapor
dc.subjectModelagem distribucionalpor
dc.subjectSense embeddingseng
dc.subjectSense vectorseng
dc.subjectWord sense disambiguationeng
dc.subjectWord embeddingseng
dc.subjectWord vectorseng
dc.subjectDistributional modelingeng
dc.titleGeração de vetores de sentido para o portuguêspor
dc.title.alternativeGenerating sense embeddings for portugueseeng
dc.typeDissertaçãopor
dc.contributor.advisor1Caseli, Helena de Medeiros
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6608582057810385por
dc.description.resumoRepresentações vetoriais numéricas são capazes de representar desde palavras até significados, em espaços vetoriais contínuos de baixa dimensão. Essas representações utilizam a modelagem distribucional, onde o contexto em que a palavra ocorre é levado em consideração para a geração do vetor. As representações de palavras, mais conhecidas como word embeddings ou word vectors (Word2vec, FastText, Wang2vec e Glove), muito utilizadas até então, apresentam uma importante limitação: produzem uma única representação vetorial para cada palavra, ignorando o fato de que palavras ambíguas podem assumir significados diferentes (contextos diferentes). Essa combinação de significados pode ser um problema para várias aplicações. Por exemplo, em uma tarefa de compreensão de linguagem, usando o vetor de uma palavra ambígua como "banco", todos os possíveis significados -- como instituição financeira, banco de sangue ou um item de mobília -- serão misturados em um único vetor numérico, causando uma interpretação semântica errada da sentença na qual ocorre. Ao longo dos últimos anos, as representações de significados (sentidos), conhecidas como sense embeddings ou sense vectors mostraram ser capazes de modelar conhecimento sintático e semântico e passaram a ser utilizadas em aplicações de PLN. Por ser capaz de transformar os vários sentidos de uma palavra ambígua em vetores numéricos, notou-se o poder desse recurso em fazer Desambiguação Lexical de Sentidos (DLS). Esta pesquisa gerou e avaliou vetores de sentido para o português (PT-BR e PT-EU), e mostrou que eles superam os vetores tradicionais em tarefas intrínsecas e extrínsecas de PLN, já que são capazes de lidar com a ambiguidade lexical. Até onde sabemos, este é o primeiro trabalho a investigar a geração e a avaliação de vetores de sentido para o português.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCCpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpor
dc.description.sponsorshipIdCAPES: Código de Financiamento 001por
dc.description.sponsorshipIdFAPESP: 2016/13002-0por
dc.ufscar.embargoOnlinepor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/8077169220013752por


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record