Tipologia de traços linguísticos de textos do português do Brasil dos séculos XVI, XVII, XVIII e XIX: uma proposta para a classificação automática de gêneros textuais

Souza, Jacqueline Aparecida de

dc.contributor.author	Souza, Jacqueline Aparecida de
dc.date.accessioned	2016-06-02T20:25:07Z
dc.date.available	2011-01-17
dc.date.available	2016-06-02T20:25:07Z
dc.date.issued	2010-02-26
dc.identifier.citation	SOUZA, Jacqueline Aparecida de. Tipologia de traços linguísticos de textos do português do Brasil dos séculos XVI, XVII, XVIII e XIX: uma proposta para a classificação automática de gêneros textuais. 2010. 167 f. Dissertação (Mestrado em Ciências Humanas) - Universidade Federal de São Carlos, São Carlos, 2010.	por
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/5698
dc.description.abstract	Based on methodological postulates of the Linguistic of corpus and on the genre concepts, proposed by Swales (1990) and Biber (1995), this research intends to describe linguistic traces which are characteristic of historic texts and correlate them to their respective genres, as well as propose a typology of traces so that it is possible to automatically identify the genre. In order to execute the research, the corpus of the Portuguese of the centuries XVI, XVII and XVII of the project Historical Dictionary of the Portuguese in Brazil (program Institutes of the Millennium/CNPq UNESP/Araraquara), which is constituted by 2,459 texts and 7,5 million words has been used. In order to realize a historical description, the study has started from synchronic characteristics obtained from the table of contemporary traces elaborated by Aires (2005). As for the manipulation of the corpus, it has been used the Philologic, the Unitex as well as another tool for the extraction and quantification of traces that has been developed. For the purposes of classification, algorithms available at Weka (Waikato Environment for knowledge Analysis) such as: Naive Bayes, Bayes Net, SMO, Multilayer Perceptron e RBFNetwork, J48, NBTree have been used. The description has been made based on the 62 traces, which include statistics based on a text as a whole and on words, including classes of verbs, pronouns, adverbs as well as discourse markers, expressions and lexical units. It has been concluded that the genres share specific linguistic characteristics. However, they also present their own standards with the use of specific expressions and the frequency of lexical units. Despite the limitations and complications in using a historical corpus, the performance of the classifiers based on the raised traces was satisfactory and the rate of correct classification was 84% and 92%.	eng
dc.description.sponsorship	Universidade Federal de Minas Gerais
dc.format	application/pdf	por
dc.language	por	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Acesso Aberto	por
dc.subject	Linguística	por
dc.subject	Linguística de corpus	por
dc.subject	Aprendizado de computador	por
dc.subject	Corpus histórico	por
dc.subject	Traços lingüísticos	por
dc.subject	Gêneros textuais	por
dc.subject	Classificação automática	por
dc.subject	Corpus linguistics	eng
dc.subject	Features	eng
dc.subject	Textual genre	eng
dc.subject	Automatic classification	eng
dc.title	Tipologia de traços linguísticos de textos do português do Brasil dos séculos XVI, XVII, XVIII e XIX: uma proposta para a classificação automática de gêneros textuais	por
dc.type	Dissertação	por
dc.contributor.advisor1	Almeida, Gladis Maria de Barcellos
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4046789388750478	por
dc.description.resumo	Com base nos postulados metodológicos da Linguística de Corpus e nos conceitos de gênero, propostos por Swales (1990) e Biber (1995), esta pesquisa pretende descrever traços linguísticos característicos de textos históricos, correlacionando-os a seus respectivos gêneros, e propor uma tipologia de traços de forma que seja possível identificar o gênero de cada texto automaticamente. Para execução da pesquisa foi utilizado o corpus do português dos séculos XVI, XVII e XVIII do projeto Dicionário Histórico do Português do Brasil (programa Institutos do Milênio/CNPq UNESP/Araraquara), constituído por 2.459 textos e 7.5 milhões de palavras. Para realizar uma descrição histórica, partiu-se de características sincrônicas obtidas a partir da tabela de traços contemporâneos elaborada por Aires (2005). No que tange à manipulação do corpus, utilizou-se o Philologic, o Unitex e desenvolveu-se uma ferramenta para extração e quantificação dos traços. Para fins de classificação, foram utilizados os algoritmos disponibilizados no Weka (Waikato Environment for Knowledge Analysis), tais como: Naive Bayes, Bayes Net, SMO, Multilayer Perceptron e RBFNetwork, J48, NBTree. A descrição foi realizada com base em 62 traços, os quais abarcam estatísticas baseadas no texto como um todo e em palavras, incluindo as classes de verbos, pronomes, advérbios, como também marcadores discursivos, expressões e unidades lexicais. Concluiu-se que os gêneros compartilham características linguísticas específicas, porém, também apresentam seus padrões próprios, como o uso de determinadas expressões e a frequência de unidades lexicais. Apesar das limitações e complicações em utilizar um corpus histórico, o desempenho dos classificadores com base nos traços levantados foi satisfatório, com a taxa de acerto 84% e 92% de classificação correta.	por
dc.publisher.country	BR	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Linguística - PPGL	por
dc.subject.cnpq	LINGUISTICA, LETRAS E ARTES::LINGUISTICA	por
dc.contributor.authorlattes	http://lattes.cnpq.br/8939049222796130	por

Arquivos deste item

Nome:: 3377.pdf
Tamanho:: 3.382Mb
Formato:: PDF

Visualizar/Abrir

Este item aparece na(s) seguinte(s) coleção(s)

Teses e dissertações

Mostrar registro simples