Investigação de técnicas de in-context learning para reconhecimento de entidades nomeadas para português

Vincenzi, Bianca Couto

Investigação de técnicas de in-context learning para reconhecimento de entidades nomeadas para português

dc.contributor.advisor1	Di-Felippo, Ariani
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/8648412103197455
dc.contributor.advisor1orcid	https://orcid.org/0000-0002-4566-9352
dc.contributor.author	Vincenzi, Bianca Couto
dc.contributor.authorlattes	https://lattes.cnpq.br/4772167049354186
dc.contributor.authororcid	https://orcid.org/0009-0004-2884-355X
dc.date.accessioned	2026-04-28T17:40:02Z
dc.date.issued	2025-12-16
dc.description.abstract	In the field of Natural Language Processing (NLP), Named Entity Recognition (NER) is the task responsible for identifying named entities (NEs) in texts and classifying them according to predefined categories. This task enables the automated extraction of key information—such as names of people, organizations, locations, dates, and other elements—thus contributing to semantic text analysis. Given the effectiveness of Large Language Models (LLMs) for NER and other NLP tasks, this study conducted an initial investigation of several Prompt Engineering approaches for NER in texts written in standard or formal Portuguese. Specifically, we explored the In-Context Learning (ICL) strategy known as zero-shot prompting, in which the task is performed solely based on the LLM’s prior knowledge, and few-shot prompting, through which LLMs learn to perform a task from a few examples provided directly in the prompt. Each strategy was employed in combination with additional prompting techniques, including two instruction-based approaches (i.e., persona prompting and rule-based prompting) and one type of output formatting. To this end, a sample from the Porttinari-base corpus was used, consisting of 471 sentences manually annotated with NEs. This sample served as the gold standard for evaluating NER based on LLM with ICL techniques. Results show that a substantial performance improvement with the few-shot approach (F1-Score of 66.0%) compared to the zero-shot scenario (F1-Scores of 37.7%). Despite the sample limitations, it is concluded that Prompt Engineering offers a promising and agile alternative to the completion of NER to fine-tuned models.	eng
dc.description.resumo	No campo do Processamento de Língua Natural (PLN), o Reconhecimento de Entidades Nomeadas (REN) é a tarefa responsável por identificar as entidades nomeadas (ENs) nos textos e classificá-las de acordo com categorias pré-definidas. Essa tarefa permite a extração automatizada de informações-chave, como nomes de pessoas, organizações, locais, datas e outras, contribuindo para a análise conveica textual. Diante da eficácia dos grandes modelos de linguagem (Large Language Models - LLM) para a tarefa de REN e outras no PLN, este trabalho investigou, de modo incipiente, algumas abordagens de Engenharia de Prompt para a tarefa de REN em textos escritos em português padrão ou formal. Especificamente, exploraram-se as técnicas de In-Context Learning (ICL) zero-shot, em que a tarefa é realizada apenas com base no conhecimento prévio do LLM, e few-shot, por meio da qual os LLMs aprendem a realizar uma tarefa a partir de alguns exemplos fornecidos no prompt. Cada uma delas foi empregada em conjunto a outras técnicas de prompting, sendo duas baseadas em instruções (instruction-based) (no caso, persona prompting e rule-based prompting) e outra de formatação estruturada de saída (structured output). Para tanto, utilizou-se uma amostra do corpus Porttinari-base, cujas 471 sentenças foram manualmente anotadas com ENs. Tal amostra serviu como gold-standard para a avaliação da tarefa de REN baseada em LLM com técnicas de ICL. Como resultado, verificou-se um salto de desempenho com a abordagem few-shot (medida-F1 de 66%) em comparação ao zero-shot (medida-F1 de 37,7%). Apesar das limitações amostrais, conclui-se que a Engenharia de Prompt oferece uma alternativa promissora e ágil para a tarefa de REN frente aos modelos treinados.	por
dc.identifier.citation	VINCENZI, Bianca Couto. Investigação de técnicas de in-context learning para reconhecimento de entidades nomeadas para português. 2025. Trabalho de Conclusão de Curso (Graduação em Linguística) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/24018.	por
dc.identifier.uri	https://hdl.handle.net/20.500.14289/24018
dc.language.iso	por
dc.publisher	Universidade Federal de São Carlos
dc.publisher.address	Campus São Carlos
dc.publisher.course	Linguística - Ling
dc.publisher.initials	UFSCar
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subject	Named entity recognition	eng
dc.subject	In-context learning	eng
dc.subject	Prompt engineering	eng
dc.subject.cnpq	LINGUISTICA, LETRAS E ARTES::LINGUISTICA
dc.subject.ods	9. Indústria, Inovação e Infraestrutura
dc.title	Investigação de técnicas de in-context learning para reconhecimento de entidades nomeadas para português	por
dc.title.alternative	Investigation of in-context learning techniques for named entity recognition in portuguese	eng
dc.type	TCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: TCC_Bianca_Couto_VFinal_Ajustada.pdf
Tamanho:: 1.6 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

TCC