Mostrar registro simples

dc.contributor.authorCeregatto, Gabriel
dc.date.accessioned2024-08-19T12:56:47Z
dc.date.available2024-08-19T12:56:47Z
dc.date.issued2022-09-30
dc.identifier.citationCEREGATTO, Gabriel. Caracterização morfossintática de um corpus de tweets e análise preliminar de erros de tagging. 2022. Trabalho de Conclusão de Curso (Graduação em Linguística) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/20374.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/20374
dc.description.abstractPart-of-speech tagging is one of the first processes for natural language interpretation in Natural Language Processing (NLP) systems or applications. Being defined as the identification of the grammatical category of each word or token in a text, the tagging task generates relevant knowledge for other processes of the system/application, such as the syntactic analysis or parsing. Given the relevance of social networks, many researches on tagging have been developed focusing on processing different types of “user-generated content” (UGC). Regarding the grammatical framework and the linguistic resource, most of the research on tagging has relied on the Universal Dependencies (UD) model, and on the construction of annotated tweet corpora (also called tweebanks). In this work, we first performed the statistical characterization of the gold-standard morphosyntactic annotation of the DANTEStocks corpus. Such resource comprises tweets from the stock market domain, and it is the first tweebank with UD annotation in Portuguese. As a result, it was found that (i) the posts in the corpus tend to be fragmented and composed of informal uses of punctuation marks (such as reduplication), which is evidenced by the high frequency of the PUNCT tag; (ii) the tweets seem to have a nominal structure, since NOUN and PROPN are highly frequent, unlike VERB; (iii) interjections are rarely used by users as a way of expressing feelings and emotions, given the low frequency of INJT, and (iv) the character limitation posed by the platform seems to have influence on the simplicity (syntactic) structure of the tweets, avoiding CCONJ, SCONJ and AUX. Next, we carried out an initial analysis of the tagging errors made by UDPipe 2.1 in the annotation of a subset of tweets from DANTEStocks. This analysis resulted in a set of post-editing tagging rules, which still need to be evaluated, and in the classification of the rules according to their degree of generalization. Furthermore, we could found that (i) the vast majority of errors made by the tagging method refer to general language knowledge and not domain knowledge and (ii) the CGU (lexical and/or orthographic) phenomena of the corpus seem to have low influence on the tagging process, since a minority of errors are related to tokens characterized by these phenomena. With that, we believe that this work contributes to the linguistic-descriptive studies and to NLP.eng
dc.description.sponsorshipNão recebi financiamentopor
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectCorpuspor
dc.subjectTweeteng
dc.subjectAnálise morfossintática automáticapor
dc.subjectTaggingeng
dc.titleCaracterização morfossintática de um corpus de tweets e análise preliminar de erros de taggingpor
dc.title.alternativeMorphosyntactic characterization of a corpus of tweets and preliminary analysis of tagging errorseng
dc.typeTCCpor
dc.contributor.advisor1Di Felippo, Ariani
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8648412103197455por
dc.description.resumoA etiquetação morfossintática automática ou tagging é um dos primeiros processos para a interpretação de língua natural em sistemas ou aplicações do Processamento Automático das Línguas Naturais (PLN). Sendo definida como a identificação da classe gramatical de cada uma das palavras ou tokens de um texto, a tarefa gera conhecimento relevante para os demais processos do sistema/aplicação, como a análise sintática. Dada a relevância das redes sociais, muitas pesquisas sobre tagging têm sido conduzidas com vistas ao processamento dos diferentes tipos de “conteúdo gerado por usuário” (CGU). A respeito do arcabouço gramatical e do recurso linguístico, a maioria delas tem se apoiado no modelo Universal Dependencies (UD) e na construção de corpora anotados de tweets (tweebanks). Neste trabalho, fez-se primeiramente a caracterização estatística da anotação morfossintática de referência do corpus DANTEStocks, que, contendo tweets do mercado de ações, é o primeiro tweebank com anotação UD em português. Como resultado, verificou-se que (i) as postagens tendem a ser fragmentadas e compostas por usos informais de sinais de pontuação (como a reduplicação), o que é evidenciado pela alta frequência da tag PUNCT; (ii) os tweets parecem ter uma natureza nominal, uma vez que NOUN e PROPN são muito frequentes, ao contrário de VERB; (iii) as interjeições são raramente empregadas pelos usuários como forma de manifestação de sentimentos e emoções, dada a baixa frequência de INJT, e (iv) a limitação de caracteres imposta pela plataforma parece colaborar para que a estrutura dos tweets do mercado de ações não seja complexa, uma vez que CCONJ, SCONJ e AUX possuem baixa frequência. Na sequência, realizou-se uma análise inicial dos erros cometidos pelo método UDPipe 2.1 na anotação PoS de uma parcela do corpus. A análise resultou em um conjunto de regras de pós-edição de tagging, as quais ainda precisam ser avaliadas, e no levantamento do grau de generalização delas. Ademais, ela permitiu verificar que (i) a grande maioria dos erros de tagging se referem a conhecimento de língua geral e não de domínio e (ii) os fenômenos CGU (lexical e/ou ortográficos) do corpus parecem pouco interferir no processo de tagging, uma vez que uma minoria dos erros é relativa a tokens caracterizados por esses fenômenos. Com isso, acredita-se que este trabalho contribui para os estudos linguístico-descritivos e para o PLN.por
dc.publisher.initialsUFSCarpor
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICApor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/8176589107861953por
dc.publisher.courseLinguística - Lingpor
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-4566-9352por


Arquivos deste item

Thumbnail
Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Exceto quando indicado o contrário, a licença deste item é descrito como Attribution-NonCommercial-NoDerivs 3.0 Brazil