Mostrar el registro sencillo del ítem

dc.contributor.authorBarbosa, Bryan Khelven da Silva
dc.description.abstractIn this study, the argument structure (A-structure) of predicative nouns (Npred) occurring in the financial market tweet corpus DANTEStocks was described, given the preference for using this type of predicator in digital genres of this domain. The specific objective was to verify: (i) the presence/absence of arguments (Arg) in the tweets, (ii) the syntactic realization of Args, and (iii) the influence of linguistic phenomena in tweets on the realization of the A-structure of the nouns. Specifically, 145 Npreds and 1,756 instances (tweets with at least one Npred) from the corpus were described at the syntactic-semantic level. Syntactically, semi-automatic annotation of the entire DANTEStocks was carried out according to the Universal Dependencies (UD) model. At the semantic level, syntactic dependency trees guided the manual annotation of instances according to NomBank. The syntactic-semantic mapping revealed that: (i) the A-structure of valency one (V1) Npreds is always filled in syntax, (ii) the A-structure of Npreds with V>1 shows some missing Args, (iii) most analyzed Npreds are of V3, with only 2 Args in most instances, (iv) the deprels most frequently connecting Npreds to their Args are nmod and amod, and (v) the syntactic realization of the A-structure in 24 instances was reduced by tweet-specific phenomena (truncation and juxtaposition of elements). These results enrich the descriptive framework of lexical aspects of the language in financial market tweets. Moreover, the syntactic-semantic valency description of Npreds was systematized in NounBank.DS, an online lexical repository that can support further linguistic-computational research. A contribution to Natural Language Processing (NLP) is the UD-syntactic annotation of DANTEStocks, which led to the creation of the first Portuguese tweebank. This resource enabled the development of the first UD-parser of UGC for this language. The NomBank-like semantic annotation of a portion of the corpus also generated a significant resource. Thus, this study produced reference linguistic resources and a tool (parser) for the automatic processing of Portuguese tweets, which are essential for developing NLP applications targeting this type of UGC.eng
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.subjectNome predicadorpor
dc.subjectEstrutura de argumentospor
dc.titleDescrição sintático-semântica de nomes predicadores em tweets do mercado financeiro em portuguêspor
dc.title.alternativeSyntactic-semantic description of predicative nouns in portuguese financial market tweetseng
dc.contributor.advisor1Di Felippo, Ariani
dc.description.resumoNeste trabalho, descreveu-se a estrutura de argumentos (estrutura-A) dos nomes predicadores (Npred) que ocorrem no córpus de tweets do mercado financeiro DANTEStocks, pois há preferência pelo uso desse tipo de predicador em gêneros digitais desse domínio. O objetivo específico foi verificar: (i) a presença/ausência dos argumentos (Arg) nos tweets, (ii) a realização sintática dos Arg e (iii) a influência dos fenômenos linguísticos dos tweets na realização da estrutura-A dos nomes. Especificamente, 145 Npred e 1.756 instâncias (tweets com ao menos um Npred) do córpus foram descritas em nível sintático-semântico. Quanto à sintaxe, fez-se a anotação semiautomática de todo o DANTEStocks de acordo com o modelo Universal Dependencies (UD). Em nível semântico, as árvores de dependência sintática guiaram a anotação manual das instâncias segundo o NomBank. O mapeamento sintático-semântico permitiu observar que: (i) a estrutura-A dos Npred de valência um (V1) é sempre preenchida na sintaxe, (ii) a estrutura-A dos Npred de V>1 apresenta algum Arg ausente, (iii) a maioria dos Npred analisados é de V3, com apenas 2 Arg na maioria das instâncias, (iv) as deprel que mais frequentemente conectam os Npred a seus Arg são nmod e amod, e (v) a realização sintática da estrutura-A em 24 instâncias foi reduzida pela ocorrência de fenômenos dos tweets (truncamento e justaposição de elementos). Esses resultados enriquecem o arcabouço de estudos descritivos sobre os aspectos lexicais da linguagem dos tweets do mercado financeiro. Aliás, a descrição da valência sintático-semântica dos Npred foi sistematizada no NounBank.DS, um repositório lexical online que pode subsidiar outras pesquisas linguístico-computacionais. Como contribuição para o Processamento das Línguas Naturais (PLN), destaca-se a anotação sintática-UD do DANTEStocks, a qual deu origem ao primeiro tweebank em português. Esse recurso permitiu o desenvolvimento do primeiro parser-UD para UGC na referida língua. A anotação semântica à la NomBank de uma parcela do córpus também gerou um importante recurso. Assim, este trabalho produziu recursos linguísticos de referência e uma ferramenta (parser) para o processamento automático de tweets em português, os quais são essenciais para o desenvolvimento de aplicações de PLN destinadas a esse tipo de CGU.por
dc.publisher.programPrograma de Pós-Graduação em Linguística - PPGLpor
dc.publisher.addressCâmpus São Carlospor

Ficheros en el ítem


Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivs 3.0 Brazil