Representação formal de significado: o caso dos tweets do mercado financeiro
| dc.contributor.advisor1 | Di-Felippo, Ariani | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/8648412103197455 | |
| dc.contributor.author | Ceregatto, Gabriel | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/8176589107861953 | |
| dc.date.accessioned | 2025-09-11T17:30:12Z | |
| dc.date.issued | 2025-08-11 | |
| dc.description.abstract | Semantic annotation of corpora plays a crucial role in the development of Natural Language Processing (NLP) tools. In the case of user generated content (UGC) corpora composed of tweets whose language is predominantly informal semantic annotations typically focus on lexical aspects such as named entities, emotion, or polarity. In this study, we investigated the sentential semantic representation of Portuguese language financial market tweets via the Abstract Meaning Representation (AMR) framework, under the hypothesis that syntactic information can aid such representations. To this end, we annotated the DANTEStocks corpus, the first tweebank with grammatical annotation according to the Universal Dependencies (UD) formalism, covering a subset of 1,128 of the 4,048 tweets (i.e. 30% of the total). The AMR annotation followed a hybrid methodology, comprising a manual phase to establish guidelines and reference models, and a semiautomatic phase in which manually curated corrections were applied to graphs produced by a large language model. This process confirmed our hypothesis that UD syntactic dependencies facilitate the construction of AMR graphs, particularly in identifying subgraphs and relations among concepts. Additional contributions include: (i) the development and validation of AMR annotation guidelines for phenomena specific to Portuguese, UGC, and the financial domain; (ii) the proposal of labels for three types of financial domain entities (URLs, tickers, and users); and (iii) the introduction of a frameset for the VerboBrasil repository covering the financial verb repicar. The primary challenge encountered was interpreting tweets for AMR graph construction, given their fragmentation, truncation, contextual dependence, and specialized vocabulary necessitating continuous expert consultation and external financial-domain resources. Nevertheless, even with a relatively small validation set, an inter-annotator F-score of 89% indicates that the AMR-annotated portion of DANTEStocks is a reliable resource for pioneering research on AMR parsing of tweets in NLP and for guiding the annotation of the remaining corpus. | eng |
| dc.description.resumo | A anotação semântica de corpora desempenha papel essencial no desenvolvimento de ferramentas de Processamento de Línguas Naturais (PLN). No caso dos corpora de “conteúdo gerado por usuário” (CGU) compostos por tweets, cuja linguagem é predominantemente informal, as anotações semânticas pautam-se basicamente em aspectos lexicais, como entidade nomeada, emoção ou polaridade. Neste trabalho, investigou-se a representação semântica “sentencial” de tweets do mercado financeiro em português por meio do modelo Abstract Meaning Representation (AMR), sob a hipótese de que informações sintáticas podem auxiliar tal representação. Para tanto, anotou-se o corpus DANTEStocks, primeiro tweebank com anotação gramatical segundo o modelo Universal Dependencies (UD). Mais precisamente, anotou-se uma parcela de 1.128 dos 4.048 tweets (isto é, 30% do total) do corpus. A anotação AMR seguiu uma metodologia híbrida, com uma etapa manual para definição de diretrizes e modelos de referência, e outra semiautomática, que consistiu na revisão manual de grafos gerados por um Large Language Model. Tal anotação permitiu confirmar a hipótese de que as dependências sintáticas UD auxiliam na construção dos grafos AMR, sobretudo na identificação de subgrafos e relações entre conceitos. Outras contribuições são (i) desenvolvimento e validação de diretrizes de anotação AMR para fenômenos linguísticos específicos do português, CGU e domínio financeiro, (ii) proposição de rótulos para 3 tipos de entidades do domínio financeiro (URL, ticker e usuário) e (iii) proposição de um frameset para o repositório Verbo-Brasil referente ao verbo “repicar” do mercado financeiro. A principal dificuldade neste trabalho foi a interpretação dos tweets para a construção dos grafos AMR devido à sua fragmentação, truncamento, dependência contextual e vocabulário especializado, exigindo auxílio constante de experts e recursos externos sobre o domínio financeiro. Mesmo com base em um conjunto de validação pequeno, a medida-F de 89% para a concordância interanotador indica que a parcela do DANTEStocks com anotação AMR é um recurso confiável para subsidiar as primeiras pesquisas sobre parsing AMR para tweets no PLN e para a anotação do restante do corpus. | |
| dc.description.sponsorship | Outra | |
| dc.description.sponsorshipId | 3957 | |
| dc.identifier.citation | CEREGATTO, Gabriel. Representação formal de significado: o caso dos tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22742. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/22742 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.initials | UFSCar | |
| dc.publisher.program | Programa de Pós-Graduação em Linguística - PPGL | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
| dc.subject | PLN | |
| dc.subject | Conteúdo Gerado por Usuário | |
| dc.subject | Semântica | |
| dc.subject | Tweets | |
| dc.subject | Corpus | |
| dc.subject | NLP | |
| dc.subject.cnpq | LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA | |
| dc.title | Representação formal de significado: o caso dos tweets do mercado financeiro | |
| dc.title.alternative | Formal meaning representation: the case of financial market tweets | eng |
| dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Dissertação_Mestrado_Gabriel_Ceregatto_FINAL.pdf
- Tamanho:
- 10.14 MB
- Formato:
- Adobe Portable Document Format