Automatic identification of bias in Large Language Models

Assi, Fernanda Malheiros

Automatic identification of bias in Large Language Models

dc.contributor.advisor1	Caseli, Helena de Medeiros
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/6608582057810385
dc.contributor.advisor1orcid	https://orcid.org/0000-0003-3996-8599
dc.contributor.author	Assi, Fernanda Malheiros
dc.contributor.authorlattes	https://lattes.cnpq.br/6394842925871918
dc.contributor.authororcid	https://orcid.org/0000-0001-8820-964X
dc.contributor.referee	Souza, Marlo Vieira dos Santos e
dc.contributor.referee	Silva, Renato Moraes
dc.contributor.refereeLattes	https://lattes.cnpq.br/8734792579019380
dc.contributor.refereeLattes	https://lattes.cnpq.br/2532893661927339
dc.date.accessioned	2026-06-11T13:08:59Z
dc.date.issued	2026-05-21
dc.description.abstract	Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains, from legal reasoning to clinical decision support. As these models become increasingly integrated into real-world applications, concerns about their reliability, fairness, and ethical implications have emerged. Studies have shown that LLMs can produce biased outputs, reinforcing harmful stereotypes and discriminating against marginalized groups. This work proposes a systematic and scalable framework for evaluating and ranking LLMs based on stereotype generation in Brazilian Portuguese. The framework combines template-based sentence generation, human annotation, and supervised classification into a unified pipeline. A set of 164 sentence templates, covering gender, race, and their intersections, was used to elicit completions from 37 LLMs from multiple providers. The resulting sentences were annotated by human annotators along two dimensions: alignment with social stereotypes and potential harm. The stereotype alignment labels served as the foundation for training a BERTimbau-based classifier, selected via nested cross-validation, which achieved a macro averaged F1 of 0.665. Classifier predictions were then used to construct pairwise match tables, feeding to an Elo rating system, that generated two complementary rankings: a model ranking and a social marker ranking. The results reveal that smaller open-source models tend to generate less stereotyped content than larger commercial ones, and that social markers combining race and gender consistently elicit the most stereotyped outputs across all models. The framework is made available as an interactive interface that supports the incremental addition of new models.	eng
dc.description.resumo	Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em diversas áreas, desde raciocínio jurídico até suporte à decisão clínica. À medida que esses modelos são cada vez mais integrados em aplicações do mundo real, surgem preocupações quanto à sua confiabilidade, imparcialidade e implicações éticas. Estudos mostram que os LLMs podem gerar resultados enviesados, reforçando estereótipos prejudiciais e discriminando grupos marginalizados. Este trabalho propõe um framework sistemático e escalável para avaliar e classificar LLMs com base na geração de estereótipos em Português brasileiro. O framework combina geração de sentenças por templates, anotação humana e classificação supervisionada em um pipeline unificado. Um conjunto de 164 templates de sentenças, cobrindo gênero, raça e suas intersecções, foi utilizado para elicitar completações de 37 LLMs de múltiplos provedores. As sentenças resultantes foram anotadas por anotadores humanos em duas dimensões: alinhamento com estereótipos sociais e dano potencial. Os rótulos de alinhamento com estereótipos serviram como base para o treinamento de um classificador baseado no BERTimbau, selecionado via validação cruzada aninhada, que alcançou F1-macro de 0,665. As predições do classificador foram usadas para construir tabelas de matches pareados, alimentando um sistema Elo que gerou dois rankings complementares: um ranking de modelos e um ranking de marcadores sociais. Os resultados revelam que modelos menores de código aberto tendem a gerar menos conteúdo estereotipado do que modelos comerciais maiores, e que marcadores sociais que combinam raça e gênero elicitam consistentemente saidas mais estereotipadas em todos os modelos. O framework é disponibilizado como uma interface interativa que suporta a adição incremental de novos modelos.	por
dc.description.sponsorship	Não recebi financiamento
dc.identifier.citation	ASSI, Fernanda Malheiros. Automatic identification of bias in Large Language Models. 2026. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Campus São Carlos, 2026. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/24224.	*
dc.identifier.uri	https://hdl.handle.net/20.500.14289/24224
dc.language.iso	eng
dc.publisher	Universidade Federal de São Carlos
dc.publisher.address	Campus São Carlos
dc.publisher.center	Centro de Ciências Exatas e de Tecnologia - CCET
dc.publisher.initials	UFSCar
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.relation.uri	https://aclanthology.org/2024.stil-1.4/
dc.rights	Attribution 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/br/
dc.subject	Bias in Language Models	eng
dc.subject	Stereotype	eng
dc.subject	Elo System	eng
dc.subject	Brazilian Portuguese	eng
dc.subject	Viés em Modelos de Linguagem	por
dc.subject	Estereótipo	por
dc.subject	Sistema Elo	por
dc.subject	Português do Brasil	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.ods	10. Redução das Desigualdades
dc.title	Automatic identification of bias in Large Language Models	eng
dc.title.alternative	Identificação automática de viés em Grandes Modelos de Linguagem	por
dc.type	Dissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: dissertacao_mestrado_fernanda_malheiros_assi.pdf
Tamanho:: 3.18 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

Teses e Dissertações