Anotação e caracterização de fenômenos léxico-ortográficos em tweets do mercado financeiro

dc.contributor.advisor1Di-Felippo, Ariani
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8648412103197455
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-4566-9352
dc.contributor.authorOliveira, Gabriela Pinheiro de
dc.contributor.authorlatteshttp://lattes.cnpq.br/2432226082462782
dc.contributor.authororcidhttps://orcid.org/0009-0002-3537-1816
dc.date.accessioned2025-12-19T14:00:33Z
dc.date.issued2025-07-24
dc.description.abstractWith the growth of digital media and social networks, the importance of user-generated content (UGC) has increased considerably, creating demand for Natural Language Processing (NLP) tools and applications capable of handling the predominantly non-canonical language found across UGC genres. Annotated corpora are essential resources for this purpose, as are the description and analysis of their linguistic characteristics. Among these resources, corpora composed of tweets/posts stand out, given the relevance of the Twitter/X platform for various segments of society. In this undergraduate thesis, the manual annotation of lexical-orthographic phenomena in the financial-market tweet corpus known as DANTEStocks was further advanced. This annotation effort, which covered approximately 75% of the total tweets, enabled a preliminary characterization of the corpus based on a hierarchical typology of classes, types, and subtypes designed to capture creative phenomena and variation with respect to the standard norm.eng
dc.description.resumoCom o crescimento das mídias digitais e redes sociais, a importância do “conteúdo gerado por usuário” (CGU) aumentou consideravelmente, demandando ferramentas e aplicações de Processamento de Língua Natural (PLN) capazes de lidar com a linguagem primordialmente não canônica dos diferentes gêneros CGU. Para tanto, os corpora anotados são recursos essenciais, assim como a descrição e análise de suas características linguísticas. Entre eles, destacam-se os corpora compostos por tweets/posts, dada a relevância da plataforma Twitter/X para vários segmentos da sociedade. Neste Trabalho de Conclusão de Curso (TCC), deu-se prosseguimento à anotação manual de fenômenos léxico-ortográficos no corpus de tweets do mercado financeiro denominado DANTEStocks. Tal anotação, que atingiu cerdca de 75% do total de tweets, permitiu uma caracterização preliminar do corpus em função de uma tipologia hierárquica de classes, tipos e subtipos, que busca capturar fenômenos criativos e de variação da norma padrão.
dc.identifier.citationOLIVEIRA, Gabriela Pinheiro de. Anotação e caracterização de fenômenos léxico-ortográficos em tweets do mercado financeiro. 2025. Trabalho de Conclusão de Curso (Graduação em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23309.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/23309
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.courseLinguística - Ling
dc.publisher.initialsUFSCar
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjecttweets
dc.subjectanotação de corpus
dc.subjectfenômeno léxico-ortográfico
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::ARTES
dc.subject.ods9. Indústria, Inovação e Infraestrutura
dc.titleAnotação e caracterização de fenômenos léxico-ortográficos em tweets do mercado financeiro
dc.title.alternativeAnnotation and characterization of lexical-orthographic phenomena in financial market tweetseng
dc.typeTCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCC_Gabriela_Pinheiro_Final.pdf
Tamanho:
4.79 MB
Formato:
Adobe Portable Document Format

Coleções