Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa

dc.contributor.advisor1Almeida, Gladis Maria de Barcellos
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4046789388750478
dc.contributor.authorKamikawachi, Dayse Simon Landim
dc.contributor.authorlatteshttp://lattes.cnpq.br/7846039422136199
dc.date.accessioned2025-06-17T12:16:06Z
dc.date.issued2014-08-18
dc.description.abstractComputational tools in Natural Language Processing (NLP) are essential in handling electronic texts. Some of the resources commonly used are: frequency counters, word lists, keywords, and concordancers. It is noteworthy that this last tool, which terminologists use to view and extract defining contexts for certain terms, is useful in the stage of writing terminological definitions. Depending on the term and corpus size, the list of concordances may exceed a few hundred lines, making the task of defining the term extremely time-consuming. Yet, while concordancers facilitate the task of writing definitions, studies in terminology (ALARCÓN, 2009) and NLP (KLAVANS; MURESAN, 2001) have shown that it is possible to develop linguistic formalism that can be a substrate for the generation or enrichment of a system capable of detecting such contexts. While research in this direction has already been undertaken for English, Spanish, German, and French, among other languagesǡ research on Portuguese needs a more accurate linguistic explanation of defining context, in order to serve as a base for the development of similar systems for the Portuguese language. Therefore, the goals of this research are as follows: 1) to investigate the patterns of defining contexts found in technical corpora in Portuguese, 2) to provide linguistic knowledge which can be formalised computationally to create a system of semi-automatic extraction of candidate defining contexts, and 3) to evaluate the results generated. As the study’s corpus, we used scientific articles from the Bank of Portuguese (LAEL-PUC), and for the analysis, the following verbs were chosen: nomear ‘to name’, conceber ‘to conceive’, chamar ‘to call’, entender ‘to understand’, conhecer ‘to know’ and denominar ‘to denominate’. It was possible to do: 1) a quantitative and qualitative description of each verbal definitory pattern, 2) a local grammar for the chosen verbs with the purpose of aiding in the semiautomatic retrieval of definitory contexts, 3) an exclusion grammar to serve as a stoplist for local grammars and 4) a set of heuristics for a semiautomatic definitory context classifier. The evaluation of the lexical-syntactic rules of these six verbs showed 64% accuracy and 92% coverage in the global average, which represents an optimistic result in comparison to the results of previous studies. As a result, it was possible to 1) validate the methodology used, making it possible to extend it to other lexical-syntactic patterns and 2) obtain linguistic knowledge in order to integrate a semiautomatic computational system for definitory context candidates extraction for the Portuguese language.eng
dc.description.resumoFerramentas computacionais em Processamento de Língua Natural (PLN) são essenciais na manipulação de textos eletrônicos. Algumas ferramentas utilizadas que se podem citar são: contadores de frequência, listas de palavras, palavras-chave e concordanciadores. Destaca-se que esta última é a que terminólogos recorrem para visualizar e extrair contextos definitórios sobre determinado termo, os quais serão úteis na etapa da redação da definição terminológica. Ocorre que a lista de concordâncias, dependendo do termo e do tamanho do corpus, pode chegar muitas vezes a várias centenas de linhas, tornando a tarefa de definir extremamente morosa. Ainda que o concordanciador facilite essa tarefa humana, estudos no âmbito da Terminologia (ALARCÓN, 2009) e do PLN (KLAVANS; MURESAN, 2001) têm demonstrado que é possível desenvolver formalismo linguístico de maneira a auxiliar na geração ou enriquecimento de um sistema capaz de detectar automaticamente tais contextos. Pesquisas nessa direção têm sido realizadas para o inglês, espanhol, alemão, francês, entre outras línguas, mas para o português ainda há a necessidade de uma descrição linguística mais apurada sobre como se constituem os contextos definitórios, de modo que essa descrição possa servir de base para a construção de sistemas semelhantes para o português. Assim, esta pesquisa tem como objetivos gerais: 1) investigar padrões de contextos definitórios presentes em corpora de especialidades em língua portuguesa do Brasil; 2) proporcionar conhecimento linguístico que possa ser formalizado computacionalmente, a fim de integrar um sistema de extração semiautomática de candidatos a contextos definitórios; e, finalmente, 3) avaliar os resultados gerados. Na análise, foram eleitos os verbos “nomear”, “conceber”, “chamar”, “entender”, “conhecer” e “denominar” e, como corpus de estudo, esta pesquisa valeu-se de artigos científicos do Banco do Português (LAEL-PUC/SP). Foi possível realizar: 1) uma descrição quantitativa e qualitativa de cada padrão verbal definitório; 2) uma gramática local para os seis verbos, a fim de auxiliar na recuperação semiautomática de contextos definitórios; 3) uma gramática de exclusão para servir como uma stoplist das gramáticas locais; e 4) um conjunto de heurísticas para um classificador semiautomático de contextos definitórios. A avaliação geral apresentou precisão de 64% e cobertura de 92% na média global, o que demonstra um resultado otimista, se comparado com os demais trabalhos na literatura. Como resultado, foi possível: 1) validar a metodologia empregada a fim de estendê-la a outros padrões léxico-sintáticos; 2) obter conhecimento linguístico de modo a integrar um sistema computacional de extração semiautomática de candidatos a contextos definitórios para o português.por
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)
dc.identifier.citationKAMIKAWACHI, Dayse Simon Landim. Identificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesa. 2014. Tese (Doutorado em Linguística) – Universidade Federal de São Carlos, São Carlos, 2014. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22229.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/22229
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.initialsUFSCar
dc.publisher.programPrograma de Pós-Graduação em Linguística - PPGL
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectDefinitory contexteng
dc.subjectTerminological definitioneng
dc.subjectNatural language processingeng
dc.subjectTerminologyeng
dc.subjectContexto definitóriopor
dc.subjectDefinição terminológicapor
dc.subjectProcessamento de linguagem naturalpor
dc.subjectTerminologiapor
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::LINGUISTICA::TEORIA E ANALISE LINGUISTICA
dc.titleIdentificação e extração semiautomática de contextos definitórios em corpus com vistas à redação da definição terminológica: proposta de sistematização linguística para a língua portuguesapor
dc.title.alternativeSemiautomatic identification and extraction of definitory contexts in corpora to support the writing of terminological definitions: a proposal for the linguistic systematization of the Portuguese languageeng
dc.title.alternativeIdentificación y extracción semiautomática de contextos definitorios en corpus para apoyar la redacción de definiciones terminológicas: una propuesta de sistematización lingüística de la lengua portuguesaspa
dc.typeTese

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TeseFinal-Dayse_Simon_Landim_Kamikawachi.pdf
Tamanho:
3.28 MB
Formato:
Adobe Portable Document Format