dc.contributor.author | Wick-Pedro, Gabriela | |
dc.date.accessioned | 2022-11-29T17:21:02Z | |
dc.date.available | 2022-11-29T17:21:02Z | |
dc.date.issued | 2022-10-27 | |
dc.identifier.citation | WICK-PEDRO, Gabriela. Aspectos linguísticos na descrição de notícias satíricas do português do Brasil: uma proposta tipológica. 2022. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2022. Disponível em: https://repositorio.ufscar.br/handle/ufscar/17089. | * |
dc.identifier.uri | https://repositorio.ufscar.br/handle/ufscar/17089 | |
dc.description.abstract | The presence of deception on the web and in messaging applications has been a major
contemporary problem. This context generated some initiatives in Linguistics and
Computing to linguistically characterize related texts and automatically detect their
occurrence. According to (RUBIN; CHEN; CONROY, 2015), there are three traditional
types of misleading content: i) fabricated news: produced by what is called the brown
press or tabloids; ii) rumors: news disguised to deceive the public and can be released by
carelessness by traditional news agencies and iii) satirical news: news similar to real news,
however, created for humor purposes. Theoretically, according to Simpson (2003), satire
can be defined, based on a triad, as a discursive practice that establishes and results in an
ironic incongruity between a satirical target, a satirical author and a satirical audience,
and whose purpose is to criticize or mock the satirical target. Thus, if not recognized
as humorous content, satirical news can create difficulties in understanding and false
beliefs in the minds of more inattentive readers. Automatically detecting satirical news,
therefore, proves to be relevant in the linguistic-computational bias, mainly added to the
deficiency of works in the literature that consider the computational analysis of satire
and the inexistence for the Portuguese language. The construction of a corpus of satirical
news and its parallel of true news for Brazilian Portuguese is reported here. The corpus is
composed of a subcorpus of 150 satirical news (22,963 words and 1,212 sentences) extracted
from the Sensationalista website and another subcorpus of 150 real news (107,133 words
and 5,721 sentences) extracted from several online news portals and corresponding to
the articles satirical. The total corpus counts 130 thousand words and 6,900 sentences.
Furthermore, this work proposes to analyze and describe the morphosyntactics aspects,
the difference between the verbal occurrences of satirical news, as well as the main lexical
characteristics found in satirical and true articles. To perform this task, the corpus was
automatically annotated by the PALAVRAS parser (BICK, 2000). The NILC-Metrix
tools (LEAL, 2021) were also used to measure the textual complexity in texts and the
LIWC (PENNEBAKER et al., 2015), which evaluates emotional, cognitive and structural
components of a given text, is based on the use of a dictionary containing sorting words
into categories. Finally, it is expected to contribute to the linguistic description of satirical
news and to create, through the results obtained in this research, bases for future Natural
Language Processing (NLP) works focused on the automatic identification of misleading
content for Brazilian Portuguese. | eng |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) | por |
dc.language.iso | por | por |
dc.publisher | Universidade Federal de São Carlos | por |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Notícia satírica | por |
dc.subject | Sátira | por |
dc.subject | Notícia falsa | por |
dc.subject | Pistas linguísticas | por |
dc.subject | Corpus | por |
dc.subject | Satirical news | eng |
dc.subject | Satire | eng |
dc.subject | Fake news | eng |
dc.subject | Linguistic clues | eng |
dc.subject | Corpus | eng |
dc.title | Aspectos linguísticos na descrição de notícias satíricas do português do Brasil: uma proposta tipológica | por |
dc.title.alternative | Linguistic aspects in the description of satirical news in Brazilian Portuguese: a typological proposal | eng |
dc.type | Tese | por |
dc.contributor.advisor1 | Vale, Oto Araújo | |
dc.contributor.advisor1 | Vale | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/2277403284693571 | por |
dc.description.resumo | A presença de conteúdo enganoso (do inglês, deception) na web e em aplicativos de
mensagens tem se mostrado um grande problema contemporâneo. Esse contexto gerou
algumas iniciativas na Linguística e na Computação para caracterizar linguisticamente
textos relacionados e detectar automaticamente sua ocorrência. De acordo com (RUBIN;
CHEN; CONROY, 2015), existem três tipos tradicionais de conteúdo enganoso: i) notícias
fabricadas: produzidas pelo que é chamado de imprensa marrom ou tabloides; ii) boatos:
notícias disfarçadas para enganar o público e podem ser divulgadas por descuido pelas
agências de notícias tradicionais e iii) notícias satíricas: notícias parecidas com as notícias
reais, porém, criadas para fins de humor. Teoricamente, de acordo com Simpson (2003),
a sátira pode ser definida, a partir de uma tríade, como uma prática discursiva que
estabelece e resulta uma incongruência irônica entre um alvo satírico, um autor satírico e
um público satírico e tem como propósito criticar ou zombar do alvo satírico. Assim, se não
reconhecidas como um conteúdo de humor, as notícias satíricas podem criar dificuldades de
entendimento e falsas crenças nas mentes de leitores mais desatentos. Detectar uma notícia
satírica automaticamente, portanto, mostra-se relevante no viés linguístico-computacional,
principalmente somado à deficiência de trabalhos na literatura que consideram a análise
computacional da sátira e a inexistência para a Língua Portuguesa. Relata-se aqui a
construção de um corpus de notícias satíricas e seu paralelo de notícias verdadeiras para
português brasileiro. O corpus é composto por um subcorpus de 150 notícias satíricas
(22.963 palavras e 1.212 sentenças) extraídas do site Sensacionalista e outro subcorpus de
150 notícias verdadeiras (107.133 palavras e 5.721 sentenças) extraídas de diversos portais
on-line de notícias e são correspondentes aos artigos satíricos. O corpus total contabiliza
130 mil palavras e 6.900 sentenças. Além disso, este trabalho se propõe a analisar e
descrever os aspectos morfossintáticos, a diferença das ocorrências verbais das notícias
satíricas, bem como as principais características lexicais encontradas nos artigos satíricos
e verdadeiros. Para a realização desta tarefa, o corpus foi anotado automaticamente pelo
parser PALAVRAS (BICK, 2000). Também foram utilizadas as ferramentas NILC-Metrix
(LEAL, 2021) para medir a complexidade textual nos textos e o LIWC (PENNEBAKER et
al., 2015), que avalia componentes emocionais, cognitivos e estruturais de um determinado
texto, baseia-se na utilização de um dicionário contendo classificação de palavras em
categorias. Finalmente, espera-se contribuir na descrição linguística de notícias satíricas
e criar por meio dos resultados obtidos nesta pesquisa, bases para futuros trabalhos do
Processamento de Língua Natural (PLN) focados na identificação automática de conteúdo
enganoso para o português do Brasil. | por |
dc.publisher.initials | UFSCar | por |
dc.publisher.program | Programa de Pós-Graduação em Linguística - PPGL | por |
dc.subject.cnpq | LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA | por |
dc.description.sponsorshipId | 88882.426864/2019- 01 | por |
dc.publisher.address | Câmpus São Carlos | por |
dc.contributor.authorlattes | http://lattes.cnpq.br/3367416478527735 | por |