Show simple item record

dc.contributor.authorRibeiro, Lucas Lopes
dc.date.accessioned2024-08-19T13:00:07Z
dc.date.available2024-08-19T13:00:07Z
dc.date.issued2023-09-11
dc.identifier.citationRIBEIRO, Lucas Lopes. Análise de regras linguísticas para o aperfeiçoamento de anotações automáticas de part-of-speech. 2023. Trabalho de Conclusão de Curso (Graduação em Linguística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/20375.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/20375
dc.description.abstractThe automatic morphosyntactic tagging of Part-of-Speech, also known as PoS tagging, is an essential task as it is one of the initial text processing steps that a text undergoes during analysis performed by Natural Language Processing (NLP) applications or methods. The task involves classifying words in a text according to their grammatical classes. In the literature, there are numerous research efforts dedicated to this type of activity, mostly focused on corpora of more formal genres such as journalistic and academic texts. Furthermore, Universal Dependencies (UD) is the most widely adopted linguistic theory in current research on automatic tagging due to its universal guidelines for morphosyntactic labels. For the Portuguese language, there are still few works based on this formalism, especially when it comes to user-generated content (UGC). Therefore, the objective of this study was to analyze, refine, and evaluate a set of post-editing tagging rules proposed by Ceregatto (2022), based on errors made by the UDPipe 2.1 model when annotating the DANTEStocks corpus, which comprises a collection of financial market tweets. These rules aim to enrich tagging methods (statistical and/or probabilistic, such as UDPipe 2.1) with linguistic knowledge for UGC texts in the Portuguese language. As a result, the reduction of the initial set of rules, the formalization of their description, and the evaluation of refined rules referring to the ADJ tag are highlighted.eng
dc.description.sponsorshipNão recebi financiamentopor
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectEtiquetação morfossintáticapor
dc.subjectTweeteng
dc.subjectUniversal dependencieseng
dc.subjectTaggingeng
dc.titleAnálise de regras linguísticas para o aperfeiçoamento de anotações automáticas de part-of-speechpor
dc.title.alternativeAnalysis of linguistic rules for improving automatic part-of-speech annotationeng
dc.typeTCCpor
dc.contributor.advisor1Di Felippo, Ariani
dc.contributor.advisor1Latteshttps://lattes.cnpq.br/8648412103197455por
dc.description.resumoA etiquetação morfossintática automática de Part-of-speech, também denominada PoS tagging, é uma tarefa essencial, pois é um dos primeiros processamentos textuais pelo qual um texto é submetido durante a análise realizada por aplicações ou métodos de Processamento Automático das Línguas Naturais. A tarefa consiste em classificar as palavras de um texto de acordo com as suas classes gramaticais. Na literatura, há diversas pesquisas voltadas para esse tipo de atividade, em sua maioria voltada para corpus dos gêneros mais formais como o jornalístico e acadêmico. Além disso, a Universal Dependencies (UD) é a teoria linguística mais adotada nas pesquisas de etiquetação automática atualmente, por apresentar diretrizes universais de etiquetas morfossintáticas. Para a língua portuguesa, ainda há poucos trabalhos baseado nesse formalismo, sobretudo quando se trata de conteúdo (principalmente, textos) gerado por usuários (CGU). Portanto, o objetivo deste trabalho foi o de analisar, refinar e avaliar um conjunto de regras de pós-edição de tagging, propostas por Ceregatto (2022), a partir de erros cometidos pelo modelo UDPipe 2.1 quando da anotação do corpus DANTEStocks, que reúne um conjunto de tweets do mercado financeiro. Tais regras objetivam enriquecer os métodos de tagging (estatísticos e/ou probabilísticos, como o UDPipe 2.1) com conhecimento linguístico para textos do tipo CGU em língua portuguesa. Como resultado, destaca-se a redução do conjunto inicial de regras, a formalização de sua descrição e a avaliação das regras refinadas que se referem à tag ADJ.por
dc.publisher.initialsUFSCarpor
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICApor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/1786710232811854por
dc.publisher.courseLinguística - Lingpor
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-4566-9352por


Files in this item

Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record

Attribution-NonCommercial-NoDerivs 3.0 Brazil
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivs 3.0 Brazil