Automatic identification of bias in Large Language Models
| dc.contributor.advisor1 | Caseli, Helena de Medeiros | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/6608582057810385 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0003-3996-8599 | |
| dc.contributor.author | Assi, Fernanda Malheiros | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/6394842925871918 | |
| dc.contributor.authororcid | https://orcid.org/0000-0001-8820-964X | |
| dc.contributor.referee | Souza, Marlo Vieira dos Santos e | |
| dc.contributor.referee | Silva, Renato Moraes | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/8734792579019380 | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/2532893661927339 | |
| dc.date.accessioned | 2026-06-11T13:08:59Z | |
| dc.date.issued | 2026-05-21 | |
| dc.description.abstract | Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains, from legal reasoning to clinical decision support. As these models become increasingly integrated into real-world applications, concerns about their reliability, fairness, and ethical implications have emerged. Studies have shown that LLMs can produce biased outputs, reinforcing harmful stereotypes and discriminating against marginalized groups. This work proposes a systematic and scalable framework for evaluating and ranking LLMs based on stereotype generation in Brazilian Portuguese. The framework combines template-based sentence generation, human annotation, and supervised classification into a unified pipeline. A set of 164 sentence templates, covering gender, race, and their intersections, was used to elicit completions from 37 LLMs from multiple providers. The resulting sentences were annotated by human annotators along two dimensions: alignment with social stereotypes and potential harm. The stereotype alignment labels served as the foundation for training a BERTimbau-based classifier, selected via nested cross-validation, which achieved a macro averaged F1 of 0.665. Classifier predictions were then used to construct pairwise match tables, feeding to an Elo rating system, that generated two complementary rankings: a model ranking and a social marker ranking. The results reveal that smaller open-source models tend to generate less stereotyped content than larger commercial ones, and that social markers combining race and gender consistently elicit the most stereotyped outputs across all models. The framework is made available as an interactive interface that supports the incremental addition of new models. | eng |
| dc.description.resumo | Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em diversas áreas, desde raciocínio jurídico até suporte à decisão clínica. À medida que esses modelos são cada vez mais integrados em aplicações do mundo real, surgem preocupações quanto à sua confiabilidade, imparcialidade e implicações éticas. Estudos mostram que os LLMs podem gerar resultados enviesados, reforçando estereótipos prejudiciais e discriminando grupos marginalizados. Este trabalho propõe um framework sistemático e escalável para avaliar e classificar LLMs com base na geração de estereótipos em Português brasileiro. O framework combina geração de sentenças por templates, anotação humana e classificação supervisionada em um pipeline unificado. Um conjunto de 164 templates de sentenças, cobrindo gênero, raça e suas intersecções, foi utilizado para elicitar completações de 37 LLMs de múltiplos provedores. As sentenças resultantes foram anotadas por anotadores humanos em duas dimensões: alinhamento com estereótipos sociais e dano potencial. Os rótulos de alinhamento com estereótipos serviram como base para o treinamento de um classificador baseado no BERTimbau, selecionado via validação cruzada aninhada, que alcançou F1-macro de 0,665. As predições do classificador foram usadas para construir tabelas de matches pareados, alimentando um sistema Elo que gerou dois rankings complementares: um ranking de modelos e um ranking de marcadores sociais. Os resultados revelam que modelos menores de código aberto tendem a gerar menos conteúdo estereotipado do que modelos comerciais maiores, e que marcadores sociais que combinam raça e gênero elicitam consistentemente saidas mais estereotipadas em todos os modelos. O framework é disponibilizado como uma interface interativa que suporta a adição incremental de novos modelos. | por |
| dc.description.sponsorship | Não recebi financiamento | |
| dc.identifier.citation | ASSI, Fernanda Malheiros. Automatic identification of bias in Large Language Models. 2026. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Campus São Carlos, 2026. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/24224. | * |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/24224 | |
| dc.language.iso | eng | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.center | Centro de Ciências Exatas e de Tecnologia - CCET | |
| dc.publisher.initials | UFSCar | |
| dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC | |
| dc.relation.uri | https://aclanthology.org/2024.stil-1.4/ | |
| dc.rights | Attribution 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | |
| dc.subject | Bias in Language Models | eng |
| dc.subject | Stereotype | eng |
| dc.subject | Elo System | eng |
| dc.subject | Brazilian Portuguese | eng |
| dc.subject | Viés em Modelos de Linguagem | por |
| dc.subject | Estereótipo | por |
| dc.subject | Sistema Elo | por |
| dc.subject | Português do Brasil | por |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | |
| dc.subject.ods | 10. Redução das Desigualdades | |
| dc.title | Automatic identification of bias in Large Language Models | eng |
| dc.title.alternative | Identificação automática de viés em Grandes Modelos de Linguagem | por |
| dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- dissertacao_mestrado_fernanda_malheiros_assi.pdf
- Tamanho:
- 3.18 MB
- Formato:
- Adobe Portable Document Format