Descoberta automática de expressões multipalavras a partir de textos paralelos

Vargas, Natalie Lourenço

dc.contributor.author	Vargas, Natalie Lourenço
dc.date.accessioned	2019-01-14T18:49:29Z
dc.date.available	2019-01-14T18:49:29Z
dc.date.issued	2018-10-11
dc.identifier.citation	VARGAS, Natalie Lourenço. Descoberta automática de expressões multipalavras a partir de textos paralelos. 2018. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2018. Disponível em: https://repositorio.ufscar.br/handle/ufscar/10836.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/10836
dc.description.abstract	Multiword Expressions (MWEs) are a current challenge for Natural Language Processing field and there are different proposed automatic methods to treat and discovery them. We propose in this work two new bilingual discover methods in parallel texts, which were implemented as the Bilingual Discovery MWE Toolkit (BiDiMWEToolkit). The proposed methods were based on similar ideas in related works and they use bilingual word embeddings in order to find the best MWEs translations automatically discovered. In the first method, source and target MWEs are extracted separately from morphossyntatic patterns already defined and they are paired based on billingual word embeddings. In the second method, we just extracted source MWEs and the best translations are defined using bilingual word embeddings. As a result of our presented experiments, we concluded that both methods are capable of performing billingual discovery but the second method has prove to be more complete than the first method: (1) it capable of generating translations without target MWEs, so it wasn’t necessary to have prior knowledge about the target language, (2) and capable of generating translations composed by one word, covering the cases when MWE translations are not an expression.	eng
dc.description.sponsorship	Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq)	por
dc.language.iso	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights.uri	Acesso aberto	por
dc.subject	Expressões multipalavras	por
dc.subject	EM	por
dc.subject	Descoberta bilíngue	por
dc.subject	Descoberta monolíngue	por
dc.subject	Córpus paralelo	por
dc.subject	Multiword expressions	eng
dc.subject	MWE	eng
dc.subject	Bilingual discovery	eng
dc.subject	Monolingual discovery	eng
dc.subject	Parallel corpus	eng
dc.title	Descoberta automática de expressões multipalavras a partir de textos paralelos	por
dc.type	Dissertação	por
dc.contributor.advisor1	Caseli, Helena de Medeiros
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6608582057810385	por
dc.description.resumo	Expressões Multipalavras (EMs) são um desafio atual para a área de Processamento de Linguagem Natural e existem diferentes métodos automáticos propostos para descobri-las e tratá-las nos textos. Neste trabalho propomos dois métodos de descoberta de EMs de forma bilíngue em textos paralelos, os quais foram implementados em uma ferramenta que recebeu o nome de Bilingual Discovery MWE Toolkit (BiDiMWEToolkit). Com embasamento em ideias similares na literatura, os métodos propostos utilizam vetores de palavras (word embeddings) bilíngues para encontrar as melhores traduções para as EMs descobertas automaticamente. No primeiro método proposto, as EMs fonte e alvo são extraídas separadamente, a partir de padrões morfossintáticos pré-definidos, e, em seguida, ocorre o paralelismo das candidatas com base nos vetores bilíngues de palavras. No segundo método, a extração de EMs ocorre apenas no lado fonte, seguida da definição das melhores traduções (EMs ou não) alvo com base nos vetores bilíngues de palavras. Nos experimentos apresentados neste trabalho, para o par de idiomas português-inglês, concluímos que os dois métodos são capazes de realizar a descoberta bilíngue. O segundo método, contudo, apresenta duas vantagens em relação ao primeiro: (1) é capaz de gerar traduções sem a necessidade de ter conhecimento prévio da língua alvo, e (2) é capaz de gerar traduções contendo apenas uma palavra, abrangendo os casos em que EMs não são traduzidas necessariamente como expressões.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO	por
dc.description.sponsorshipId	CNPq: 132890/2016-0	por
dc.ufscar.embargo	Online	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/7480933015410339	por

Files in this item

Name:: dissertacao-natalie.pdf
Size:: 856.2Kb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Teses e dissertações

Show simple item record