Arquiteturas híbridas explicáveis com modelos lineares e LLMs para classificação de peças processuais: estudo de caso no Supremo Tribunal Federal

Bertho, Gabriel Andreazi

Arquiteturas híbridas explicáveis com modelos lineares e LLMs para classificação de peças processuais: estudo de caso no Supremo Tribunal Federal

dc.contributor.advisor1	Levada, Alexandre Luis Magalhães
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/3341441596395463
dc.contributor.author	Bertho, Gabriel Andreazi
dc.date.accessioned	2025-12-19T13:54:20Z
dc.date.issued	2025-12-17
dc.description.abstract	The growing volume of cases in Brazil’s higher courts has fostered the use of machine learning to support the triage and organization of legal documents. This work investigates automatic classification of Brazilian Supreme Court (STF) documents into six canonical types (Extraordinary Appeal, Interlocutory Appeal in Extraordinary Appeal, Judgment, Appellate Decision, Admissibility Order, and Others) using the Victor dataset, as well as the generation of natural-language explanations for model decisions. We compare classical baselines based on TF–IDF and linear classifiers (SVM and Naive Bayes) with two Gemma 3 language models fine-tuned for sequence classification (270M parameters with full fine-tuning and a 4B-parameter model trained via QLoRA). Results show that Naive Bayes, despite high accuracy, collapses on minority classes and yields very low macro-F1, whereas a class-weighted SVM achieves robust performance (test macro-F1 around 0.82) and is already competitive for this task; Gemma 3 270M and 4B QLoRA deliver only modest macro-F1 gains, indicating that simple lexical cues capture most of the structure of document type classification. We then propose hybrid architectures in which a decision engine (SVM or Gemma 3 270M) is combined with a Gemma 3 4B chat LLM that generates legal Portuguese explanations conditioned on relevant n-grams extracted by the linear classifier. Explanation quality is assessed through a simple lexical fidelity metric (feature coverage), with average coverage around 0.79 in the SVM + LLM scenario and very similar values (approximately 0.76 vs. 0.77) when comparing SVM and Gemma 3 270M as decision engines. Overall, the results suggest that TF–IDF + SVM provides a lightweight and effective baseline for document type classification on Victor, while hybrid architectures with an LLM explainer offer a pragmatic trade-off between performance, computational cost, and minimal transparency of automatic decisions.	eng
dc.description.resumo	O crescimento do volume de processos nos tribunais superiores brasileiros tem impulsionado o uso de aprendizado de máquina para apoiar tarefas de triagem e organização de documentos jurídicos. Neste trabalho, investigamos a classificação automática de peças processuais do Supremo Tribunal Federal (STF) em seis tipos canônicos (recurso extraordinário, agravo em recurso extraordinário, sentença, acórdão, despacho e outros) utilizando o conjunto de dados Victor, bem como a geração de explicações em linguagem natural para as decisões do modelo. Comparamos baselines clássicos baseados em TF–IDF com classificadores lineares (SVM e Naive Bayes) a dois modelos de linguagem Gemma 3 ajustados para sequence classification (270M parâmetros com full fine-tuning e 4B parâmetros com QLoRA). Os resultados mostram que o Naive Bayes, embora apresente acurácia alta, falha nas classes minoritárias, resultando em F1-macro muito baixa, enquanto a SVM com pesos balanceados atinge desempenho robusto (F1-macro em torno de 0,82 no teste) e já competitivo para o problema estudado; os modelos Gemma 3 270M e 4B QLoRA obtêm ganhos apenas modestos em F1-macro, reforçando que, para tipificação de peças, sinais lexicais simples capturam grande parte da estrutura da tarefa. Em seguida, propomos arquiteturas híbridas em que um motor de decisão (SVM ou Gemma 3 270M) é combinado a uma LLM Gemma 3 4B em modo conversa, encarregada de gerar explicações em português jurídico condicionadas a n-grams relevantes extraídos pelo classificador linear. A qualidade das explicações é avaliada por uma métrica simples de fidelidade lexical (feature coverage), com coberturas médias em torno de 0,79 no cenário SVM + LLM e valores muito próximos (aproximadamente 0,76 vs. 0,77) na comparação entre SVM e Gemma 3 270M como motores de decisão. Os resultados sugerem que a combinação TF–IDF + SVM constitui uma base leve e eficaz para classificação de tipo de peça no Victor, enquanto arquiteturas híbridas com LLM explicadora oferecem um compromisso pragmático entre desempenho, custo computacional e transparência mínima das decisões.
dc.description.sponsorship	Não recebi financiamento
dc.identifier.citation	BERTHO, Gabriel Andreazi. Arquiteturas híbridas explicáveis com modelos lineares e LLMs para classificação de peças processuais: estudo de caso no Supremo Tribunal Federal. 2025. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23307.	por
dc.identifier.uri	https://hdl.handle.net/20.500.14289/23307
dc.language.iso	por
dc.publisher	Universidade Federal de São Carlos
dc.publisher.address	Campus São Carlos
dc.publisher.course	Engenharia de Computação - EC
dc.publisher.initials	UFSCar
dc.rights	Attribution 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by/3.0/br/
dc.subject	Classificação de documentos jurídicos
dc.subject	Modelos de Linguagem de Grande Escala (LLMs)
dc.subject	Inteligência Artificial Explicável
dc.subject	Dataset Victor
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.ods	9. Indústria, Inovação e Infraestrutura
dc.subject.ods	16. Paz, Justiça e Instituições Eficazes
dc.title	Arquiteturas híbridas explicáveis com modelos lineares e LLMs para classificação de peças processuais: estudo de caso no Supremo Tribunal Federal
dc.title.alternative	Explainabel hybrid architectures with linear models and LLMs for classifying procedural documents: a case study at the Brazilian Supreme Court	eng
dc.type	TCC

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: 2025_2_TCC_2_Gabriel_Bertho.pdf
Tamanho:: 29.66 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

TCC