Arquiteturas híbridas explicáveis com modelos lineares e LLMs para classificação de peças processuais: estudo de caso no Supremo Tribunal Federal
| dc.contributor.advisor1 | Levada, Alexandre Luis Magalhães | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/3341441596395463 | |
| dc.contributor.author | Bertho, Gabriel Andreazi | |
| dc.date.accessioned | 2025-12-19T13:54:20Z | |
| dc.date.issued | 2025-12-17 | |
| dc.description.abstract | The growing volume of cases in Brazil’s higher courts has fostered the use of machine learning to support the triage and organization of legal documents. This work investigates automatic classification of Brazilian Supreme Court (STF) documents into six canonical types (Extraordinary Appeal, Interlocutory Appeal in Extraordinary Appeal, Judgment, Appellate Decision, Admissibility Order, and Others) using the Victor dataset, as well as the generation of natural-language explanations for model decisions. We compare classical baselines based on TF–IDF and linear classifiers (SVM and Naive Bayes) with two Gemma 3 language models fine-tuned for sequence classification (270M parameters with full fine-tuning and a 4B-parameter model trained via QLoRA). Results show that Naive Bayes, despite high accuracy, collapses on minority classes and yields very low macro-F1, whereas a class-weighted SVM achieves robust performance (test macro-F1 around 0.82) and is already competitive for this task; Gemma 3 270M and 4B QLoRA deliver only modest macro-F1 gains, indicating that simple lexical cues capture most of the structure of document type classification. We then propose hybrid architectures in which a decision engine (SVM or Gemma 3 270M) is combined with a Gemma 3 4B chat LLM that generates legal Portuguese explanations conditioned on relevant n-grams extracted by the linear classifier. Explanation quality is assessed through a simple lexical fidelity metric (feature coverage), with average coverage around 0.79 in the SVM + LLM scenario and very similar values (approximately 0.76 vs. 0.77) when comparing SVM and Gemma 3 270M as decision engines. Overall, the results suggest that TF–IDF + SVM provides a lightweight and effective baseline for document type classification on Victor, while hybrid architectures with an LLM explainer offer a pragmatic trade-off between performance, computational cost, and minimal transparency of automatic decisions. | eng |
| dc.description.resumo | O crescimento do volume de processos nos tribunais superiores brasileiros tem impulsionado o uso de aprendizado de máquina para apoiar tarefas de triagem e organização de documentos jurídicos. Neste trabalho, investigamos a classificação automática de peças processuais do Supremo Tribunal Federal (STF) em seis tipos canônicos (recurso extraordinário, agravo em recurso extraordinário, sentença, acórdão, despacho e outros) utilizando o conjunto de dados Victor, bem como a geração de explicações em linguagem natural para as decisões do modelo. Comparamos baselines clássicos baseados em TF–IDF com classificadores lineares (SVM e Naive Bayes) a dois modelos de linguagem Gemma 3 ajustados para sequence classification (270M parâmetros com full fine-tuning e 4B parâmetros com QLoRA). Os resultados mostram que o Naive Bayes, embora apresente acurácia alta, falha nas classes minoritárias, resultando em F1-macro muito baixa, enquanto a SVM com pesos balanceados atinge desempenho robusto (F1-macro em torno de 0,82 no teste) e já competitivo para o problema estudado; os modelos Gemma 3 270M e 4B QLoRA obtêm ganhos apenas modestos em F1-macro, reforçando que, para tipificação de peças, sinais lexicais simples capturam grande parte da estrutura da tarefa. Em seguida, propomos arquiteturas híbridas em que um motor de decisão (SVM ou Gemma 3 270M) é combinado a uma LLM Gemma 3 4B em modo conversa, encarregada de gerar explicações em português jurídico condicionadas a n-grams relevantes extraídos pelo classificador linear. A qualidade das explicações é avaliada por uma métrica simples de fidelidade lexical (feature coverage), com coberturas médias em torno de 0,79 no cenário SVM + LLM e valores muito próximos (aproximadamente 0,76 vs. 0,77) na comparação entre SVM e Gemma 3 270M como motores de decisão. Os resultados sugerem que a combinação TF–IDF + SVM constitui uma base leve e eficaz para classificação de tipo de peça no Victor, enquanto arquiteturas híbridas com LLM explicadora oferecem um compromisso pragmático entre desempenho, custo computacional e transparência mínima das decisões. | |
| dc.description.sponsorship | Não recebi financiamento | |
| dc.identifier.citation | BERTHO, Gabriel Andreazi. Arquiteturas híbridas explicáveis com modelos lineares e LLMs para classificação de peças processuais: estudo de caso no Supremo Tribunal Federal. 2025. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/23307. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/23307 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.course | Engenharia de Computação - EC | |
| dc.publisher.initials | UFSCar | |
| dc.rights | Attribution 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by/3.0/br/ | |
| dc.subject | Classificação de documentos jurídicos | |
| dc.subject | Modelos de Linguagem de Grande Escala (LLMs) | |
| dc.subject | Inteligência Artificial Explicável | |
| dc.subject | Dataset Victor | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | |
| dc.subject.ods | 9. Indústria, Inovação e Infraestrutura | |
| dc.subject.ods | 16. Paz, Justiça e Instituições Eficazes | |
| dc.title | Arquiteturas híbridas explicáveis com modelos lineares e LLMs para classificação de peças processuais: estudo de caso no Supremo Tribunal Federal | |
| dc.title.alternative | Explainabel hybrid architectures with linear models and LLMs for classifying procedural documents: a case study at the Brazilian Supreme Court | eng |
| dc.type | TCC |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- 2025_2_TCC_2_Gabriel_Bertho.pdf
- Tamanho:
- 29.66 MB
- Formato:
- Adobe Portable Document Format