Show simple item record

dc.contributor.authorAntunes, Roger Alfredo de Marci Rodrigues
dc.date.accessioned2017-08-21T18:50:41Z
dc.date.available2017-08-21T18:50:41Z
dc.date.issued2017-02-17
dc.identifier.citationANTUNES, Roger Alfredo de Marci Rodrigues. Formação de gentílicos a partir de topônimos : proposta de geração automática. 2017. Dissertação (Mestrado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2017. Disponível em: https://repositorio.ufscar.br/handle/ufscar/9035.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/ufscar/9035
dc.description.abstractIt is a common habit to use the adjective of the city name to indicate people’s origin, however the formulating rules of the adjective has been rarely discussed in the literature. The main objective of this work is to describe the gentile adjectives, which originate from the place names called toponyms. Using specific morphological rules of combination and proposing the formal representation of their regularities we can formulate the basis for a computational system, which can automatically generate the gentiles from their place names. The system proposed here is founded on the methodological principles of Dias-da-Silva (1996) - with respect to the three-phase methodology of the Natural language processing (NLP) - and the theoretical assumptions in the works of Borba (1998), Biderman (2001), Dick (2007) Jurafsky (2009) and Sandmann (1992, 1997). The corpus consists of 5,570 municipalities’ names (toponyms) and their respective gentiles, extracted in a form of a list from the database of the Instituto Brasileiro de Geografia e Estatística (IBGE). It was observed that only from a small set of recurrent unities, such as suffixes and ends of lexical entities, it is possible to extract patterns which can be subsequently used to formulate combination rules for automatic word processing. During this work, the issue of computational representation stands out and proves natural language complexity. Although natural languages can be in principle automatically processed using computers, their inherent features may deviate from the formulated rules and make the processing more intricate. Nonetheless, the results show that it is possible to automatize 52% of the generation of gentiles from the municipal toponyms. Conclusively the inherent opacity of the Portuguese does not allow direct processing of all of the language toponyms.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)por
dc.language.isoporpor
dc.publisherUniversidade Federal de São Carlospor
dc.rights.uriAcesso abertopor
dc.subjectGentílicopor
dc.subjectToponímiapor
dc.subjectMorfologia lexicalpor
dc.subjectProcessos de formação de palavraspor
dc.subjectLinguística computacionalpor
dc.subjectProcessamento de línguas naturaispor
dc.subjectGentileeng
dc.subjectToponymyeng
dc.subjectLexical morphologyeng
dc.subjectComputational linguisticseng
dc.subjectNatural language processingeng
dc.titleFormação de gentílicos a partir de topônimos : proposta de geração automáticapor
dc.typeDissertaçãopor
dc.contributor.advisor1Almeida, Gladis Maria de Barcellos
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4046789388750478por
dc.description.resumoUtilizam-se diariamente nomes de cidades e adjetivos que indicam as pessoas que nasceram ou vivem nessas cidades, mas raramente se reflete sobre as regras de formação dessas palavras. O presente trabalho tem como objetivo descrever os adjetivos pátrios, ou gentílicos, que advêm dos nomes dos lugares - topônimos -, por meio de regras de combinação morfológicas específicas e propor a representação formal das suas regularidades com intuito de servir de base para um sistema computacional capaz de gerar automaticamente os gentílicos a partir dos seus topônimos. Tomou-se como orientação os princípios metodológicos de Dias-da-Silva (1996) - no que concerne à metodologia trifásica do PLN -, e os pressupostos teóricos nos trabalhos de Borba (1998), Biderman (2001), Dick (2007), Jurafsky (2009) e Sandmann (1992, 1997). O corpus da pesquisa consiste na lista dos topônimos de 5.570 municípios e seus respectivos gentílicos, extraídos do banco de dados do Instituto Brasileiro de Geografia e Estatística (IBGE). Com esta pesquisa, foi possível observar que somente a partir das menores unidades recorrentes, como os sufixos e as extremidades finais das unidades léxicas, podem-se extrair padrões para a formulação de regras de combinação para um processamento automático. Além disso, a problemática da representação computacional evidencia a complexidade das línguas naturais, que embora sejam passíveis de processamento automático, são opacas e, desta maneira, sempre haverá questões inerentes a elas que dificultam essa tarefa. Ainda assim, os resultados mostraram que é possível automatizar a geração de gentílicos a partir de topônimos em 52% do total, o que já é um número razoável, considerando a opacidade inerente à língua natural mencionada.por
dc.publisher.initialsUFSCarpor
dc.publisher.programPrograma de Pós-Graduação em Linguística - PPGLpor
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::LINGUISTICApor
dc.ufscar.embargoOnlinepor
dc.publisher.addressCâmpus São Carlospor
dc.contributor.authorlatteshttp://lattes.cnpq.br/7929075503955558por


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record