Descrição da fragmentação estrutural de tweets do mercado financeiro via relação de “parataxis” do modelo “Universal Dependencies”
| dc.contributor.advisor1 | Di Felippo, Ariani | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/8648412103197455 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0002-4566-9352 | |
| dc.contributor.author | Freitas, Isabela Santos de | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/2430643881413968 | |
| dc.date.accessioned | 2025-08-20T12:41:37Z | |
| dc.date.issued | 2025-02-27 | |
| dc.description.abstract | One of the characteristics of tweets (now X posts) is fragmentation, as many of them are made up of sequences of segments with no explicit syntactic connection between them. These segments can be sentences, short syntagms or even fragments of these that are just juxtaposed. When a corpus is grammatically annotated according to the Universal Dependencies (UD) model, the structural fragmentation of utterances is captured by the parataxis dependency relation (deprel). In general terms, this deprel is used to note that two juxtaposed segments of the same utterance have no clear syntactic relationship between them, and can be specified by sub-tags. In this work, we described the fragmentation of financial market tweets in the DANTEStocks corpus via deprel. To this end, the occurrences of parataxis, with and withoutsub-labels, were extracted from the corpus and organized semi-automatically according to simple frequency. Of the total of 6,733 occurrences, 3,840 cases (57%) have no sub-relation and 2,893 cases (43%) have different sub-relations. Next, all occurrences of parataxis, with and without sub-relationships, were automatically organized according to the frequency of combinations between the morphosyntactic(or part-of-speech - PoS) labels of the head and dependent and the order of the labels. With the exception of parataxis:strunc and parataxis:wtrunc, the other types with sub-relation, i.e. parataxis:hashtag, parataxis:cashtag and parataxis:url, have lexical dependents, as they are equivalent to just one word/token. The dependents of parataxis:hashtag and parataxis:cashtag are X or PROPN and of parataxis:url, SYM. The cases of parataxis:strunc and parataxis:wtrunc can have lexical or structural dependents (syntagms or truncated sentences). The order of the head and dependent in parataxis:hashtag and parataxis:cashtag varies, while in parataxis:url, parataxis:strunc and parataxis:wtrunc it is always from left to right. Regarding parataxis without sub-relation, the most frequent combinations of PoS are VERB (root) + VERB/NOUN/PROPN and NOUN (root) + VERB/NOUN/NOUN, indicating that the fragmentation of tweets commonly involves juxtaposed verbal and nominal segments. With this, this work contributes to increasing the body of knowledge about the linguistic characteristics of DANTEStocks, which is the first corpus composed of tweets with UD annotation in Portuguese, and has already allowed the training and evaluation of some NLP tools for UCG. | eng |
| dc.description.resumo | Uma das características dos tweets (atuais posts do X) é a fragmentação, pois muitos deles são compostos por sequências de segmentos sem conexão sintática explícita entre eles. Tais segmentos podem ser sentenças, sintagmas curtos e mesmo fragmentos destes que estão apenas justapostos. Quando um corpus possui anotação gramatical segundo o modelo Universal Dependencies (UD), a fragmentação estrutural dos enunciados é capturada pela relação de dependência (deprel) parataxis. Em linhas gerais, essa deprel é empregada para anotar que dois segmentos justapostos de um mesmo enunciado não possuem relação sintática clara entre si, podendo ser especificada por subetiquetas. Neste trabalho, descreveu-se a fragmentação nos tweets do mercado financeiro do corpus DANTEStocks via deprel. Para tanto, as ocorrências de parataxis, com e sem sub-relações, foram extraídas do corpus e organizadas de forma semiatuomática em função da frequência simples. Do total de 6.733 ocorrências, 3.840 casos (57%) não possuem sub-relação e 2.893 casos (43%) possuem diferentes sub-relações. Na sequência, todas as ocorrências de parataxis, com e sem sub-relações, foram organizadas automaticamente em função da frequência das combinações entre as etiquetas morfossintáticas (ou de part-of-speech – PoS) do head e dependente e da ordem das etiquetas. Com exceção de parataxis:strunc e parataxis:wtrunc, os demais tipos com sub-relação, isto é, parataxis:hashtag, parataxis:cashtag e parataxis:url, possuem dependentes lexicais, pois equivalem a apenas uma palavra/token. Os dependentes de parataxis:hashtag e parataxis:cashtag são X ou PROPN e de parataxis:url, SYM. Os casos de parataxis:strunc e parataxis:wtrunc podem apresentar dependentes lexicais ou estruturais (sintagmas ou sentenças truncadas). A ordem do head e dependente em parataxis:hashtag e parataxis:cashtag é variada, ao passo que em parataxis:url, parataxis:strunc e parataxis:wtrunc é sempre da esquerda para a direita. Sobre as parataxis sem sub-relação, as combinações mais frequentes de PoS são VERB (root) + VERB/NOUN/PROPN e NOUN (root) + VERB/NOUN/NOUN, indicando que a fragmentação dos tweets comumente envolve segmentos verbais e nominais justapostos. Com isso, este trabalho contribui para aumentar o arcabouço de conhecimento sobre as características linguísticas do DANTEStocks, que é o primeiro corpus composto por tweets com anotação UD em português, já tendo permitido o treinamento e avaliação de algumas ferramentas de PLN para CGU. | por |
| dc.identifier.citation | FREITAS, Isabela Santos de. Descrição da fragmentação estrutural de tweets do mercado financeiro via relação de “parataxis” do modelo “Universal Dependencies”. 2025. Trabalho de Conclusão de Curso (Graduação em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22599. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/22599 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.course | Linguística - Ling | |
| dc.publisher.initials | UFSCar | |
| dc.rights | Attribution 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | |
| dc.subject | Tweet | eng |
| dc.subject | Universal Dependencies | eng |
| dc.subject | Parataxis | por |
| dc.subject.cnpq | LINGUISTICA, LETRAS E ARTES::ARTES | |
| dc.title | Descrição da fragmentação estrutural de tweets do mercado financeiro via relação de “parataxis” do modelo “Universal Dependencies” | por |
| dc.title.alternative | Description of the structural fragmentation of financial market tweets through the "parataxis" relation in the "Universal Dependencies" model | eng |
| dc.type | TCC |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- TCC - Isabela Freitas - Versão_FINAL.docx.pdf
- Tamanho:
- 1.82 MB
- Formato:
- Adobe Portable Document Format