Proposta e validação de uma taxonomia de variações ortográfcas em tweets do mercado financeiro
| dc.contributor.advisor1 | Di-Felippo, Ariani | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/8648412103197455 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0002-4566-9352 | |
| dc.contributor.author | Scandarolli, Clarissa Lenina | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/6804082969710510 | |
| dc.contributor.authororcid | https://orcid.org/0009-0009-9142-6771 | |
| dc.date.accessioned | 2026-04-07T18:35:57Z | |
| dc.date.issued | 2025-07-25 | |
| dc.description.abstract | Given the relevance of the Twitter platform (now X) for various segments of society, Natural Language Processing (NLP) tools and applications capable of handling the primarily non-canonical language of the tweet genre (currently referred to as posts) are in high demand. To develop them, annotated corpora (known as tweetbanks) are essential resources, as are the description and analysis of their linguistic characteristics. In this Undergraduate Thesis, the object of investigation was the DANTEStocks corpus of 4,048 financial market tweets, which is the first in Portuguese to be annotated according to the Universal Dependencies (UD) model. More precisely, a survey of orthographic phenomena in the corpus was conducted, treated as "variations" rather than "errors", in accordance with the theoretical assumptions of Variationist Sociolinguistics. These phenomena were systematized into a hierarchical typology with two dimensions: "Standard Norm" and "Innovative Norm", which seek to capture variations of canonical and innovative lexical forms. Based on this typology, the phenomena observed in 3,614 tokens (found in 1,069 tweets) from DANTEStocks were manually annotated, yielding a preliminary characterization of the corpus. The results evidenced the predominance of the Innovative Norm, accounting for 92.81% of the annotated phenomena (3,457 occurrences), reinforcing the hypothesis that, in User-Generated Content (UGC) on financial topics, innovative linguistic strategies prevail, manifesting in tokens that function as codes and systematic forms of digital communication, characteristic of the medium and of a particular social context. In this way, the annotation of graphic variations in DANTEStocks broadens the understanding of the language of financial market tweets and may enhance the tolerance of NLP models toward non-canonical language, enabling them to recognize variant forms as linguistically valid and semantically informative. | eng |
| dc.description.resumo | Dada a relevância da plataforma Twitter (agora X) para vários segmentos da sociedade, ferramentas e aplicações de Processamento de Língua Natural (PLN) capazes de lidar com a linguagem primordialmente não canônica do gênero tweet (atualmente post) são fortemente demandadas. Para desenvolvê-las, os corpora anotados (chamados tweebanks) são recursos essenciais, assim como a descrição e análise de suas características linguísticas. Nesta Monografia de Conclusão de Curso, o objeto de investigação foi o corpus de 4.048 tweets do mercado financeiro DANTEStocks, que é o primeiro em português com anotação segundo o modelo Universal Dependencies (UD). Mais precisamente, fez-se um levantamento dos fenômenos ortográficos no corpus, considerados “variações” e não “erros”, segundo os pressupostos da Sociolinguística Variacionista. Esses fenômenos foram sistematizados em uma tipologia hierárquica com duas dimensões: “Norma Padrão” e “Norma Inovadora”, que buscam capturar variações das formas canônicas e inovadoras lexicais. Com base na tipologia, os fenômenos observados em 3.614 tokens (encontrados em 1.069 tweets) do DANTEStocks foram manualmente anotados, gerando uma caracterização preliminar do corpus, que evidenciou a predominância da Norma Inovadora, correspondendo a 92,81% dos fenômenos anotados (3.457 ocorrências), reforçando a hipótese de que, no Conteúdo Gerado por Usuário (CGU) de temática financeira, predominam estratégias linguísticas inovadoras que refletem nos tokens, que são códigos e formas sistemáticas de comunicar pelo meio digital, característicos do meio e de determinado contexto social. Com isso, a anotação de variações gráficas no DANTEStocks amplia a compreensão da linguagem dos tweets do mercado financeiro e pode ampliar a tolerância dos modelos de PLN à linguagem não canônica, permitindo que reconheçam formas variantes como linguisticamente válidas e semanticamente informativas. | por |
| dc.identifier.citation | SCANDAROLLI, Clarissa Lenina. Proposta e validação de uma taxonomia de variações ortográfcas em tweets do mercado financeiro. 2025. Trabalho de Conclusão de Curso (Graduação em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23898. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/23898 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Câmpus São Carlos | |
| dc.publisher.course | Linguística - Ling | |
| dc.publisher.initials | UFSCar | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
| dc.subject | Tweet | eng |
| dc.subject | Variação ortográfica | por |
| dc.subject | Tipologia | por |
| dc.subject.cnpq | LINGUISTICA, LETRAS E ARTES::LINGUISTICA | |
| dc.subject.ods | 9. Indústria, Inovação e Infraestrutura | |
| dc.title | Proposta e validação de uma taxonomia de variações ortográfcas em tweets do mercado financeiro | por |
| dc.title.alternative | Proposal and validation of a taxonomy of orthographic variations in financial market tweets | eng |
| dc.type | TCC |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Versão Final_TCC_Clarissa_V4_revisado.pdf
- Tamanho:
- 1.29 MB
- Formato:
- Adobe Portable Document Format