Um analisador sintático neural multilíngue baseado em transições

Costa, Pablo Botton da

dc.contributor.author	Costa, Pablo Botton da
dc.date.accessioned	2017-08-23T18:26:28Z
dc.date.available	2017-08-23T18:26:28Z
dc.date.issued	2017-01-24
dc.identifier.citation	COSTA, Pablo Botton da. Um analisador sintático neural multilíngue baseado em transições. 2017. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2017. Disponível em: https://repositorio.ufscar.br/handle/ufscar/9065.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/9065
dc.description.abstract	A dependency parser consists in inducing a model that is capable of extracting the right dependency tree from an input natural language sentence. Nowadays, the multilingual techniques are being used more and more in Natural Language Processing (NLP) (BROWN et al., 1995; COHEN; DAS; SMITH, 2011), especially in the dependency parsing task. Intuitively, a multilingual parser can be seen as vector of different parsers, in which each one is individually trained on one language. However, this approach can be a really pain in the neck in terms of processing time and resources. As an alternative, many parsing techniques have been developed in order to solve this problem (MCDONALD; PETROV; HALL, 2011; TACKSTROM; MCDONALD; USZKOREIT, 2012; TITOV; HENDERSON, 2007) but all of them depends on word alignment (TACKSTROM; MCDONALD; USZKOREIT, 2012) or word clustering, which increases the complexity since it is difficult to induce alignments between words and syntactic resources (TSARFATY et al., 2013; BOHNET et al., 2013a). A simple solution proposed recently (NIVRE et al., 2016a) uses an universal annotated corpus in order to reduce the complexity associated with the construction of a multilingual parser. In this context, this work presents an universal model for dependency parsing: the NNParser. Our model is a modification of Chen e Manning (2014) with a more greedy and accurate model to capture distributional representations (MIKOLOV et al., 2011). The NNparser reached 93.08% UAS in English Penn Treebank (WSJ) and better results than the state of the art Stack LSTM parser for Portuguese (87.93% × 86.2% LAS) and Spanish (86.95% × 85.7% LAS) on the universal dependencies corpus.	eng
dc.description.sponsorship	Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights.uri	Acesso aberto	por
dc.subject	Processamento de linguagem natural	por
dc.subject	Análise sintática de dependência	por
dc.subject	Análise sintática baseada em transições	por
dc.subject	Processamento multilíngue	por
dc.subject	Aprendizado neural	por
dc.subject	Representação distribuída	por
dc.subject	Dependency parser	eng
dc.subject	Natural language processing	eng
dc.subject	Multilingual parsing	eng
dc.subject	Neural networks	eng
dc.subject	Word embeddings	eng
dc.title	Um analisador sintático neural multilíngue baseado em transições	por
dc.type	Dissertação	por
dc.contributor.advisor1	Caseli, Helena de Medeiros
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6608582057810385	por
dc.contributor.advisor-co1	Kepler, Fabio Natanael
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/2278269345182335	por
dc.description.resumo	Um analisador sintático de dependência consiste em um modelo capaz de extrair a estrutura de dependência de uma sentença em língua natural. No Processamento de Linguagem Natural (PLN), os métodos multilíngues tem sido cada vez mais utilizados (BROWN et al., 1995; COHEN; DAS; SMITH, 2011), inclusive na tarefa de análise de dependência. Intuitivamente, um analisador sintático multilíngue pode ser visto como um vetor de analisadores sintáticos treinados individualmente em cada língua. Contudo, a tarefa realizada com base neste vetor torna-se inviável devido a sua alta demanda por recursos. Como alternativa, diversos métodos de análise sintática foram propostos (MCDONALD; PETROV; HALL, 2011; TACKSTROM; MCDONALD; USZKOREIT, 2012; TITOV; HENDERSON, 2007), mas todos dependentes de alinhamento entre palavras (TACKSTROM; MCDONALD; USZKOREIT, 2012) ou de técnicas de agrupamento, o que também aumenta a complexidade associada ao modelo (TSARFATY et al., 2013; BOHNET et al., 2013a). Uma solução simples surgiu recentemente com a construção de recursos universais (NIVRE et al., 2016a). Estes recursos universais têm o potencial de diminuir a complexidade associada à construção de um modelo multilíngue, uma vez que não é necessário um mapeamento entre as diferentes notações das línguas. Nesta linha, este trabalho apresenta um modelo para análise sintática universal de dependência: o NNParser. O modelo em questão é uma modificação da proposta de Chen e Manning (2014) com um modelo mais guloso e preciso na captura de representações distribuídas (MIKOLOV et al., 2011). Nos experimentos aqui apresentados o NNParser atingiu 93, 08% de UAS para o inglês no córpus Penn Treebank e resultados melhores do que o estado da arte, o Stack LSTM, para o português (87,93% × 86,2% LAS) e o espanhol (86,95% × 85,7% LAS) no córpus UD 1.2.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.ufscar.embargo	Online	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/8542827534739117	por

Files in this item

Name:: DissPBC.pdf
Size:: 1.172Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Teses e dissertações

Show simple item record