Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa

Kamikawachi, Dayse Simon Landim

Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa

dc.contributor.advisor1	Almeida, Gladis Maria de Barcellos
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/4046789388750478
dc.contributor.author	Kamikawachi, Dayse Simon Landim
dc.contributor.authorlattes	https://lattes.cnpq.br/7846039422136199
dc.date.accessioned	2025-06-17T12:16:06Z
dc.date.issued	2014-08-18
dc.description.abstract	Computational tools in Natural Language Processing (NLP) are essential in handling electronic texts. Some of the resources commonly used are: frequency counters, word lists, keywords, and concordancers. It is noteworthy that this last tool, which terminologists use to view and extract defining contexts for certain terms, is useful in the stage of writing terminological definitions. Depending on the term and corpus size, the list of concordances may exceed a few hundred lines, making the task of defining the term extremely time-consuming. Yet, while concordancers facilitate the task of writing definitions, studies in terminology (ALARCÓN, 2009) and NLP (KLAVANS; MURESAN, 2001) have shown that it is possible to develop linguistic formalism that can be a substrate for the generation or enrichment of a system capable of detecting such contexts. While research in this direction has already been undertaken for English, Spanish, German, and French, among other languagesǡ research on Portuguese needs a more accurate linguistic explanation of defining context, in order to serve as a base for the development of similar systems for the Portuguese language. Therefore, the goals of this research are as follows: 1) to investigate the patterns of defining contexts found in technical corpora in Portuguese, 2) to provide linguistic knowledge which can be formalised computationally to create a system of semi-automatic extraction of candidate defining contexts, and 3) to evaluate the results generated. As the study’s corpus, we used scientific articles from the Bank of Portuguese (LAEL-PUC), and for the analysis, the following verbs were chosen: nomear ‘to name’, conceber ‘to conceive’, chamar ‘to call’, entender ‘to understand’, conhecer ‘to know’ and denominar ‘to denominate’. It was possible to do: 1) a quantitative and qualitative description of each verbal definitory pattern, 2) a local grammar for the chosen verbs with the purpose of aiding in the semiautomatic retrieval of definitory contexts, 3) an exclusion grammar to serve as a stoplist for local grammars and 4) a set of heuristics for a semiautomatic definitory context classifier. The evaluation of the lexical-syntactic rules of these six verbs showed 64% accuracy and 92% coverage in the global average, which represents an optimistic result in comparison to the results of previous studies. As a result, it was possible to 1) validate the methodology used, making it possible to extend it to other lexical-syntactic patterns and 2) obtain linguistic knowledge in order to integrate a semiautomatic computational system for definitory context candidates extraction for the Portuguese language.	eng
dc.description.resumo	Ferramentas computacionais em Processamento de Língua Natural (PLN) são essenciais na manipulação de textos eletrônicos. Algumas ferramentas utilizadas que se podem citar são: contadores de frequência, listas de palavras, palavras-chave e concordanciadores. Destaca-se que esta última é a que terminólogos recorrem para visualizar e extrair contextos definitórios sobre determinado termo, os quais serão úteis na etapa da redação da definição terminológica. Ocorre que a lista de concordâncias, dependendo do termo e do tamanho do corpus, pode chegar muitas vezes a várias centenas de linhas, tornando a tarefa de definir extremamente morosa. Ainda que o concordanciador facilite essa tarefa humana, estudos no âmbito da Terminologia (ALARCÓN, 2009) e do PLN (KLAVANS; MURESAN, 2001) têm demonstrado que é possível desenvolver formalismo linguístico de maneira a auxiliar na geração ou enriquecimento de um sistema capaz de detectar automaticamente tais contextos. Pesquisas nessa direção têm sido realizadas para o inglês, espanhol, alemão, francês, entre outras línguas, mas para o português ainda há a necessidade de uma descrição linguística mais apurada sobre como se constituem os contextos definitórios, de modo que essa descrição possa servir de base para a construção de sistemas semelhantes para o português. Assim, esta pesquisa tem como objetivos gerais: 1) investigar padrões de contextos definitórios presentes em corpora de especialidades em língua portuguesa do Brasil; 2) proporcionar conhecimento linguístico que possa ser formalizado computacionalmente, a fim de integrar um sistema de extração semiautomática de candidatos a contextos definitórios; e, finalmente, 3) avaliar os resultados gerados. Na análise, foram eleitos os verbos “nomear”, “conceber”, “chamar”, “entender”, “conhecer” e “denominar” e, como corpus de estudo, esta pesquisa valeu-se de artigos científicos do Banco do Português (LAEL-PUC/SP). Foi possível realizar: 1) uma descrição quantitativa e qualitativa de cada padrão verbal definitório; 2) uma gramática local para os seis verbos, a fim de auxiliar na recuperação semiautomática de contextos definitórios; 3) uma gramática de exclusão para servir como uma stoplist das gramáticas locais; e 4) um conjunto de heurísticas para um classificador semiautomático de contextos definitórios. A avaliação geral apresentou precisão de 64% e cobertura de 92% na média global, o que demonstra um resultado otimista, se comparado com os demais trabalhos na literatura. Como resultado, foi possível: 1) validar a metodologia empregada a fim de estendê-la a outros padrões léxico-sintáticos; 2) obter conhecimento linguístico de modo a integrar um sistema computacional de extração semiautomática de candidatos a contextos definitórios para o português.	por
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.identifier.citation	KAMIKAWACHI, Dayse Simon Landim. Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa. 2014. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2014. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22229.	por
dc.identifier.uri	https://hdl.handle.net/20.500.14289/22229
dc.language.iso	por
dc.publisher	Universidade Federal de São Carlos
dc.publisher.address	Campus São Carlos
dc.publisher.initials	UFSCar
dc.publisher.program	Programa de Pós-Graduação em Linguística - PPGL
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subject	Definitory context	eng
dc.subject	Terminological definition	eng
dc.subject	Natural language processing	eng
dc.subject	Terminology	eng
dc.subject	Contexto definitório	por
dc.subject	Definição terminológica	por
dc.subject	Processamento de linguagem natural	por
dc.subject	Terminologia	por
dc.subject.cnpq	LINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA
dc.title	Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa	por
dc.title.alternative	Semiautomatic identification and extraction of definitory contexts in corpora to support the writing of terminological definitions: a proposal for the linguistic systematization of the Portuguese language	eng
dc.title.alternative	Identificación y extracción semiautomática de contextos definitorios en corpus para apoyar la redacción de definiciones terminológicas: una propuesta de sistematización lingüística de la lengua portuguesa	spa
dc.type	Tese

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: TeseFinal-Dayse_Simon_Landim_Kamikawachi.pdf
Tamanho:: 3.28 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

Teses e Dissertações