Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
| dc.contributor.advisor1 | Di Felippo, Ariani | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/8648412103197455 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0002-4566-9352 | |
| dc.contributor.author | Piai, Laís | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/6432497406260164 | |
| dc.contributor.authororcid | https://orcid.org/0000-0002-1441-8550 | |
| dc.date.accessioned | 2025-08-29T16:48:39Z | |
| dc.date.issued | 2025-07-30 | |
| dc.description.abstract | Corpus annotation is a cornerstone of Natural Language Processing (NLP), providing the foundation for training and evaluating Machine Learning systems, as well as for investigating linguistic behavior in various domains. A key challenge in this area is the annotation of Named Entities (NEs) in user-generated content (UGC). The informal language and a wide range of platform and domain-specific phenomena found in tweets demand highly adapted annotation methodologies. This dissertation addresses this challenge by conducting an independent reannotation of the DANTEStocks, a Portuguese corpus of 4,048 financial market tweets (84,396 tokens). While a previous annotation based on the 10 general categories of the Second HAREM existed, our work expands this taxonomy to a more granular set of 47 types. This was achieved by refining the original guidelines based on linguistically motivated decisions and by introducing four new domain-specific types: certificate, indicator, ticker, and user. The annotation was carried out by a single annotator using a semi-automatic approach that combined rule-based methods with manual curation, resulting in a new reference annotation and a comprehensive set of guidelines. The resulting annotation comprises 20,092 entities (24,825 tokens). A detailed characterization of the corpus revealed a linguistic profile dominated by single-token (i.e. those consisting of a single word) entities and by specific stock market types such as ticker, money, and virtual. The main contributions of this work are therefore: the enrichment of the DANTEStocks corpus with a fine-grained NE annotation, a set of guidelines for annotating UGC, and a discussion of the strategies developed to overcome the inherent challenges of this task. | eng |
| dc.description.resumo | A anotação de corpus desempenha um papel central no Processamento de Línguas Naturais (PLN), servindo tanto como base para a construção e avaliação de sistemas de Aprendizado de Máquina quanto como recurso essencial para a investigação do comportamento linguístico em diferentes domínios. A anotação de Entidades Nomeadas (ENs), em particular, configura-se como uma tarefa especialmente desafiadora em conteúdo gerado por usuários (CGU), como os tweets, uma vez que a linguagem informal e os fenômenos de gênero e domínio demandam metodologias adaptadas. Diante desse cenário, este trabalho realizou a anotação de ENs no DANTEStocks, um corpus em língua portuguesa composto por 4.048 tweets (84.396 tokens) sobre o mercado financeiro. Embora esse recurso já contasse com uma primeira versão anotada, essa considerava apenas as 10 categorias genéricas do Segundo HAREM. Diante disso, este trabalho conduziu uma reanotação independente. A metodologia adotada partiu da taxonomia das 10 categorias do Segundo HAREM, utilizadas na anotação anterior, e a expandiu para um conjunto de 47 tipos, com a proposição de quatro novos (certificado, indicador, ticker e usuário), de modo a aumentar a granularidade. Essa reavaliação foi fundamentada em decisões linguisticamente motivadas e implementada por um único anotador, por meio de uma abordagem semiautomática. Esse método combinou a aplicação de regras baseadas em pistas estruturais e morfossintáticas com a curadoria humana, o que permitiu não só gerar uma anotação de referência, mas também um novo conjunto de diretrizes. A partir dessa nova anotação, que resultou em 20.092 entidades, correspondentes a 24.825 tokens, a caracterização do corpus revelou um perfil linguístico dominado por entidades unitárias, isto é, compostas por um único token, e pelos tipos ticker, moeda e virtual, confirmando a forte influência do domínio. Em suma, as contribuições desta dissertação são: o enriquecimento do corpus DANTEStocks com uma anotação de ENs de granularidade fina, um conjunto de diretrizes para anotação de CGU/tweets e uma série de discussões sobre os desafios enfrentados e as estratégias adotadas para superá-los. | |
| dc.description.sponsorship | Outra | |
| dc.identifier.citation | PIAI, Laís. Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22651. | * |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/22651 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Câmpus São Carlos | |
| dc.publisher.initials | UFSCar | |
| dc.publisher.program | Programa de Pós-Graduação em Linguística - PPGL | |
| dc.relation.uri | https://repositorio.usp.br/item/003258357 | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
| dc.subject | PLN | |
| dc.subject | Corpus | |
| dc.subject | Entidade nomeada | |
| dc.subject | Conteúdo gerado por usuário | |
| dc.subject | Tweet | |
| dc.subject | Mercado financeiro | |
| dc.subject.cnpq | LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA | |
| dc.title | Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro | |
| dc.title.alternative | Corpus annotation: characterization of Named Entities in stock market tweets | eng |
| dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Dissertacao_LaisPiai.pdf
- Tamanho:
- 2.82 MB
- Formato:
- Adobe Portable Document Format