Automatic identification of bias in Large Language Models

dc.contributor.advisor1Caseli, Helena de Medeiros
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6608582057810385
dc.contributor.advisor1orcidhttps://orcid.org/0000-0003-3996-8599
dc.contributor.authorAssi, Fernanda Malheiros
dc.contributor.authorlatteshttp://lattes.cnpq.br/6394842925871918
dc.contributor.authororcidhttps://orcid.org/0000-0001-8820-964X
dc.contributor.refereeSouza, Marlo Vieira dos Santos e
dc.contributor.refereeSilva, Renato Moraes
dc.contributor.refereeLatteshttp://lattes.cnpq.br/8734792579019380
dc.contributor.refereeLatteshttp://lattes.cnpq.br/2532893661927339
dc.date.accessioned2026-06-11T13:08:59Z
dc.date.issued2026-05-21
dc.description.abstractLarge Language Models (LLMs) have demonstrated remarkable capabilities across various domains, from legal reasoning to clinical decision support. As these models become increasingly integrated into real-world applications, concerns about their reliability, fairness, and ethical implications have emerged. Studies have shown that LLMs can produce biased outputs, reinforcing harmful stereotypes and discriminating against marginalized groups. This work proposes a systematic and scalable framework for evaluating and ranking LLMs based on stereotype generation in Brazilian Portuguese. The framework combines template-based sentence generation, human annotation, and supervised classification into a unified pipeline. A set of 164 sentence templates, covering gender, race, and their intersections, was used to elicit completions from 37 LLMs from multiple providers. The resulting sentences were annotated by human annotators along two dimensions: alignment with social stereotypes and potential harm. The stereotype alignment labels served as the foundation for training a BERTimbau-based classifier, selected via nested cross-validation, which achieved a macro averaged F1 of 0.665. Classifier predictions were then used to construct pairwise match tables, feeding to an Elo rating system, that generated two complementary rankings: a model ranking and a social marker ranking. The results reveal that smaller open-source models tend to generate less stereotyped content than larger commercial ones, and that social markers combining race and gender consistently elicit the most stereotyped outputs across all models. The framework is made available as an interactive interface that supports the incremental addition of new models.eng
dc.description.resumoOs Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em diversas áreas, desde raciocínio jurídico até suporte à decisão clínica. À medida que esses modelos são cada vez mais integrados em aplicações do mundo real, surgem preocupações quanto à sua confiabilidade, imparcialidade e implicações éticas. Estudos mostram que os LLMs podem gerar resultados enviesados, reforçando estereótipos prejudiciais e discriminando grupos marginalizados. Este trabalho propõe um framework sistemático e escalável para avaliar e classificar LLMs com base na geração de estereótipos em Português brasileiro. O framework combina geração de sentenças por templates, anotação humana e classificação supervisionada em um pipeline unificado. Um conjunto de 164 templates de sentenças, cobrindo gênero, raça e suas intersecções, foi utilizado para elicitar completações de 37 LLMs de múltiplos provedores. As sentenças resultantes foram anotadas por anotadores humanos em duas dimensões: alinhamento com estereótipos sociais e dano potencial. Os rótulos de alinhamento com estereótipos serviram como base para o treinamento de um classificador baseado no BERTimbau, selecionado via validação cruzada aninhada, que alcançou F1-macro de 0,665. As predições do classificador foram usadas para construir tabelas de matches pareados, alimentando um sistema Elo que gerou dois rankings complementares: um ranking de modelos e um ranking de marcadores sociais. Os resultados revelam que modelos menores de código aberto tendem a gerar menos conteúdo estereotipado do que modelos comerciais maiores, e que marcadores sociais que combinam raça e gênero elicitam consistentemente saidas mais estereotipadas em todos os modelos. O framework é disponibilizado como uma interface interativa que suporta a adição incremental de novos modelos.por
dc.description.sponsorshipNão recebi financiamento
dc.identifier.citationASSI, Fernanda Malheiros. Automatic identification of bias in Large Language Models. 2026. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Campus São Carlos, 2026. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/24224.*
dc.identifier.urihttps://hdl.handle.net/20.500.14289/24224
dc.language.isoeng
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.centerCentro de Ciências Exatas e de Tecnologia - CCET
dc.publisher.initialsUFSCar
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCC
dc.relation.urihttps://aclanthology.org/2024.stil-1.4/
dc.rightsAttribution 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by/3.0/br/
dc.subjectBias in Language Modelseng
dc.subjectStereotypeeng
dc.subjectElo Systemeng
dc.subjectBrazilian Portugueseeng
dc.subjectViés em Modelos de Linguagempor
dc.subjectEstereótipopor
dc.subjectSistema Elopor
dc.subjectPortuguês do Brasilpor
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.ods10. Redução das Desigualdades
dc.titleAutomatic identification of bias in Large Language Modelseng
dc.title.alternativeIdentificação automática de viés em Grandes Modelos de Linguagempor
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
dissertacao_mestrado_fernanda_malheiros_assi.pdf
Tamanho:
3.18 MB
Formato:
Adobe Portable Document Format