Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro

dc.contributor.advisor1Di Felippo, Ariani
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8648412103197455
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-4566-9352
dc.contributor.authorPiai, Laís
dc.contributor.authorlatteshttp://lattes.cnpq.br/6432497406260164
dc.contributor.authororcidhttps://orcid.org/0000-0002-1441-8550
dc.date.accessioned2025-08-29T16:48:39Z
dc.date.issued2025-07-30
dc.description.abstractCorpus annotation is a cornerstone of Natural Language Processing (NLP), providing the foundation for training and evaluating Machine Learning systems, as well as for investigating linguistic behavior in various domains. A key challenge in this area is the annotation of Named Entities (NEs) in user-generated content (UGC). The informal language and a wide range of platform and domain-specific phenomena found in tweets demand highly adapted annotation methodologies. This dissertation addresses this challenge by conducting an independent reannotation of the DANTEStocks, a Portuguese corpus of 4,048 financial market tweets (84,396 tokens). While a previous annotation based on the 10 general categories of the Second HAREM existed, our work expands this taxonomy to a more granular set of 47 types. This was achieved by refining the original guidelines based on linguistically motivated decisions and by introducing four new domain-specific types: certificate, indicator, ticker, and user. The annotation was carried out by a single annotator using a semi-automatic approach that combined rule-based methods with manual curation, resulting in a new reference annotation and a comprehensive set of guidelines. The resulting annotation comprises 20,092 entities (24,825 tokens). A detailed characterization of the corpus revealed a linguistic profile dominated by single-token (i.e. those consisting of a single word) entities and by specific stock market types such as ticker, money, and virtual. The main contributions of this work are therefore: the enrichment of the DANTEStocks corpus with a fine-grained NE annotation, a set of guidelines for annotating UGC, and a discussion of the strategies developed to overcome the inherent challenges of this task.eng
dc.description.resumoA anotação de corpus desempenha um papel central no Processamento de Línguas Naturais (PLN), servindo tanto como base para a construção e avaliação de sistemas de Aprendizado de Máquina quanto como recurso essencial para a investigação do comportamento linguístico em diferentes domínios. A anotação de Entidades Nomeadas (ENs), em particular, configura-se como uma tarefa especialmente desafiadora em conteúdo gerado por usuários (CGU), como os tweets, uma vez que a linguagem informal e os fenômenos de gênero e domínio demandam metodologias adaptadas. Diante desse cenário, este trabalho realizou a anotação de ENs no DANTEStocks, um corpus em língua portuguesa composto por 4.048 tweets (84.396 tokens) sobre o mercado financeiro. Embora esse recurso já contasse com uma primeira versão anotada, essa considerava apenas as 10 categorias genéricas do Segundo HAREM. Diante disso, este trabalho conduziu uma reanotação independente. A metodologia adotada partiu da taxonomia das 10 categorias do Segundo HAREM, utilizadas na anotação anterior, e a expandiu para um conjunto de 47 tipos, com a proposição de quatro novos (certificado, indicador, ticker e usuário), de modo a aumentar a granularidade. Essa reavaliação foi fundamentada em decisões linguisticamente motivadas e implementada por um único anotador, por meio de uma abordagem semiautomática. Esse método combinou a aplicação de regras baseadas em pistas estruturais e morfossintáticas com a curadoria humana, o que permitiu não só gerar uma anotação de referência, mas também um novo conjunto de diretrizes. A partir dessa nova anotação, que resultou em 20.092 entidades, correspondentes a 24.825 tokens, a caracterização do corpus revelou um perfil linguístico dominado por entidades unitárias, isto é, compostas por um único token, e pelos tipos ticker, moeda e virtual, confirmando a forte influência do domínio. Em suma, as contribuições desta dissertação são: o enriquecimento do corpus DANTEStocks com uma anotação de ENs de granularidade fina, um conjunto de diretrizes para anotação de CGU/tweets e uma série de discussões sobre os desafios enfrentados e as estratégias adotadas para superá-los.
dc.description.sponsorshipOutra
dc.identifier.citationPIAI, Laís. Anotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro. 2025. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22651.*
dc.identifier.urihttps://hdl.handle.net/20.500.14289/22651
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCâmpus São Carlos
dc.publisher.initialsUFSCar
dc.publisher.programPrograma de Pós-Graduação em Linguística - PPGL
dc.relation.urihttps://repositorio.usp.br/item/003258357
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectPLN
dc.subjectCorpus
dc.subjectEntidade nomeada
dc.subjectConteúdo gerado por usuário
dc.subjectTweet
dc.subjectMercado financeiro
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA
dc.titleAnotação de corpus: caracterização de Entidades Nomeadas em tweets do mercado financeiro
dc.title.alternativeCorpus annotation: characterization of Named Entities in stock market tweetseng
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertacao_LaisPiai.pdf
Tamanho:
2.82 MB
Formato:
Adobe Portable Document Format