Mostrar registro simples

dc.contributor.authorSouza, Jacqueline Aparecida de
dc.date.accessioned2016-06-02T20:25:07Z
dc.date.available2011-01-17
dc.date.available2016-06-02T20:25:07Z
dc.date.issued2010-02-26
dc.identifier.citationSOUZA, Jacqueline Aparecida de. Tipologia de traços linguísticos de textos do português do Brasil dos séculos XVI, XVII, XVIII e XIX: uma proposta para a classificação automática de gêneros textuais. 2010. 167 f. Dissertação (Mestrado em Ciências Humanas) - Universidade Federal de São Carlos, São Carlos, 2010.por
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/5698
dc.description.abstractBased on methodological postulates of the Linguistic of corpus and on the genre concepts, proposed by Swales (1990) and Biber (1995), this research intends to describe linguistic traces which are characteristic of historic texts and correlate them to their respective genres, as well as propose a typology of traces so that it is possible to automatically identify the genre. In order to execute the research, the corpus of the Portuguese of the centuries XVI, XVII and XVII of the project Historical Dictionary of the Portuguese in Brazil (program Institutes of the Millennium/CNPq UNESP/Araraquara), which is constituted by 2,459 texts and 7,5 million words has been used. In order to realize a historical description, the study has started from synchronic characteristics obtained from the table of contemporary traces elaborated by Aires (2005). As for the manipulation of the corpus, it has been used the Philologic, the Unitex as well as another tool for the extraction and quantification of traces that has been developed. For the purposes of classification, algorithms available at Weka (Waikato Environment for knowledge Analysis) such as: Naive Bayes, Bayes Net, SMO, Multilayer Perceptron e RBFNetwork, J48, NBTree have been used. The description has been made based on the 62 traces, which include statistics based on a text as a whole and on words, including classes of verbs, pronouns, adverbs as well as discourse markers, expressions and lexical units. It has been concluded that the genres share specific linguistic characteristics. However, they also present their own standards with the use of specific expressions and the frequency of lexical units. Despite the limitations and complications in using a historical corpus, the performance of the classifiers based on the raised traces was satisfactory and the rate of correct classification was 84% and 92%.eng
dc.description.sponsorshipUniversidade Federal de Minas Gerais
dc.formatapplication/pdfpor
dc.languageporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rightsAcesso Abertopor
dc.subjectLinguísticapor
dc.subjectLinguística de corpuspor
dc.subjectAprendizado de computadorpor
dc.subjectCorpus históricopor
dc.subjectTraços lingüísticospor
dc.subjectGêneros textuaispor
dc.subjectClassificação automáticapor
dc.subjectCorpus linguisticseng
dc.subjectFeatureseng
dc.subjectTextual genreeng
dc.subjectAutomatic classificationeng
dc.titleTipologia de traços linguísticos de textos do português do Brasil dos séculos XVI, XVII, XVIII e XIX: uma proposta para a classificação automática de gêneros textuaispor
dc.typeDissertaçãopor
dc.contributor.advisor1Almeida, Gladis Maria de Barcellos
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4046789388750478por
dc.description.resumoCom base nos postulados metodológicos da Linguística de Corpus e nos conceitos de gênero, propostos por Swales (1990) e Biber (1995), esta pesquisa pretende descrever traços linguísticos característicos de textos históricos, correlacionando-os a seus respectivos gêneros, e propor uma tipologia de traços de forma que seja possível identificar o gênero de cada texto automaticamente. Para execução da pesquisa foi utilizado o corpus do português dos séculos XVI, XVII e XVIII do projeto Dicionário Histórico do Português do Brasil (programa Institutos do Milênio/CNPq UNESP/Araraquara), constituído por 2.459 textos e 7.5 milhões de palavras. Para realizar uma descrição histórica, partiu-se de características sincrônicas obtidas a partir da tabela de traços contemporâneos elaborada por Aires (2005). No que tange à manipulação do corpus, utilizou-se o Philologic, o Unitex e desenvolveu-se uma ferramenta para extração e quantificação dos traços. Para fins de classificação, foram utilizados os algoritmos disponibilizados no Weka (Waikato Environment for Knowledge Analysis), tais como: Naive Bayes, Bayes Net, SMO, Multilayer Perceptron e RBFNetwork, J48, NBTree. A descrição foi realizada com base em 62 traços, os quais abarcam estatísticas baseadas no texto como um todo e em palavras, incluindo as classes de verbos, pronomes, advérbios, como também marcadores discursivos, expressões e unidades lexicais. Concluiu-se que os gêneros compartilham características linguísticas específicas, porém, também apresentam seus padrões próprios, como o uso de determinadas expressões e a frequência de unidades lexicais. Apesar das limitações e complicações em utilizar um corpus histórico, o desempenho dos classificadores com base nos traços levantados foi satisfatório, com a taxa de acerto 84% e 92% de classificação correta.por
dc.publisher.countryBRpor
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Linguística - PPGLpor
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::LINGUISTICApor
dc.contributor.authorlatteshttp://lattes.cnpq.br/8939049222796130por


Arquivos deste item

Thumbnail

Este item aparece na(s) seguinte(s) coleção(s)

Mostrar registro simples