Investigação de técnicas de in-context learning para reconhecimento de entidades nomeadas para português

dc.contributor.advisor1Di-Felippo, Ariani
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/8648412103197455
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-4566-9352
dc.contributor.authorVincenzi, Bianca Couto
dc.contributor.authorlatteshttps://lattes.cnpq.br/4772167049354186
dc.contributor.authororcidhttps://orcid.org/0009-0004-2884-355X
dc.date.accessioned2026-04-28T17:40:02Z
dc.date.issued2025-12-16
dc.description.abstractIn the field of Natural Language Processing (NLP), Named Entity Recognition (NER) is the task responsible for identifying named entities (NEs) in texts and classifying them according to predefined categories. This task enables the automated extraction of key information—such as names of people, organizations, locations, dates, and other elements—thus contributing to semantic text analysis. Given the effectiveness of Large Language Models (LLMs) for NER and other NLP tasks, this study conducted an initial investigation of several Prompt Engineering approaches for NER in texts written in standard or formal Portuguese. Specifically, we explored the In-Context Learning (ICL) strategy known as zero-shot prompting, in which the task is performed solely based on the LLM’s prior knowledge, and few-shot prompting, through which LLMs learn to perform a task from a few examples provided directly in the prompt. Each strategy was employed in combination with additional prompting techniques, including two instruction-based approaches (i.e., persona prompting and rule-based prompting) and one type of output formatting. To this end, a sample from the Porttinari-base corpus was used, consisting of 471 sentences manually annotated with NEs. This sample served as the gold standard for evaluating NER based on LLM with ICL techniques. Results show that a substantial performance improvement with the few-shot approach (F1-Score of 66.0%) compared to the zero-shot scenario (F1-Scores of 37.7%). Despite the sample limitations, it is concluded that Prompt Engineering offers a promising and agile alternative to the completion of NER to fine-tuned models.eng
dc.description.resumoNo campo do Processamento de Língua Natural (PLN), o Reconhecimento de Entidades Nomeadas (REN) é a tarefa responsável por identificar as entidades nomeadas (ENs) nos textos e classificá-las de acordo com categorias pré-definidas. Essa tarefa permite a extração automatizada de informações-chave, como nomes de pessoas, organizações, locais, datas e outras, contribuindo para a análise conveica textual. Diante da eficácia dos grandes modelos de linguagem (Large Language Models - LLM) para a tarefa de REN e outras no PLN, este trabalho investigou, de modo incipiente, algumas abordagens de Engenharia de Prompt para a tarefa de REN em textos escritos em português padrão ou formal. Especificamente, exploraram-se as técnicas de In-Context Learning (ICL) zero-shot, em que a tarefa é realizada apenas com base no conhecimento prévio do LLM, e few-shot, por meio da qual os LLMs aprendem a realizar uma tarefa a partir de alguns exemplos fornecidos no prompt. Cada uma delas foi empregada em conjunto a outras técnicas de prompting, sendo duas baseadas em instruções (instruction-based) (no caso, persona prompting e rule-based prompting) e outra de formatação estruturada de saída (structured output). Para tanto, utilizou-se uma amostra do corpus Porttinari-base, cujas 471 sentenças foram manualmente anotadas com ENs. Tal amostra serviu como gold-standard para a avaliação da tarefa de REN baseada em LLM com técnicas de ICL. Como resultado, verificou-se um salto de desempenho com a abordagem few-shot (medida-F1 de 66%) em comparação ao zero-shot (medida-F1 de 37,7%). Apesar das limitações amostrais, conclui-se que a Engenharia de Prompt oferece uma alternativa promissora e ágil para a tarefa de REN frente aos modelos treinados.por
dc.identifier.citationVINCENZI, Bianca Couto. Investigação de técnicas de in-context learning para reconhecimento de entidades nomeadas para português. 2025. Trabalho de Conclusão de Curso (Graduação em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/24018.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/24018
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.courseLinguística - Ling
dc.publisher.initialsUFSCar
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectNamed entity recognitioneng
dc.subjectIn-context learningeng
dc.subjectPrompt engineeringeng
dc.subject.cnpqLINGUISTICA, LETRAS E ARTES::LINGUISTICA
dc.subject.ods9. Indústria, Inovação e Infraestrutura
dc.titleInvestigação de técnicas de in-context learning para reconhecimento de entidades nomeadas para portuguêspor
dc.title.alternativeInvestigation of in-context learning techniques for named entity recognition in portugueseeng
dc.typeTCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCC_Bianca_Couto_VFinal_Ajustada.pdf
Tamanho:
1.6 MB
Formato:
Adobe Portable Document Format

Coleções