ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
| dc.contributor.advisor1 | Caseli, Helena de Medeiros | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/6608582057810385 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0003-3996-8599 | |
| dc.contributor.author | Capellaro, Leonardo | |
| dc.contributor.authorethnicity | Branco | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/1323489363246457 | |
| dc.contributor.authororcid | https://orcid.org/0009-0009-0514-2976 | |
| dc.date.accessioned | 2025-02-11T18:12:13Z | |
| dc.date.issued | 2025-01-30 | |
| dc.description.abstract | Recently, political discussions in Brazil have gained prominence, becoming one of the most debated topics on social media. Factors such as the diversity of themes, the occurrence of events that attract public attention, and the constant increase in the volume of messages have made it challenging to identify in a clear, concise, and objective manner the main topics of the posts. In this context, this study proposes a new automated method that explores the use of automatic topic generation and multi-level summarization techniques using large-scale language models. The proposed method was evaluated to generate summaries from tweets about Brazilian politics collected during the 2022 presidential elections. In addition to the multi-level summarization method, a new summary evaluation method was also proposed, based on the divide and conquer strategy for applying the BERTScore automatic evaluation measure to lengthy texts, which also incorporates the generated sentence size as a weight in the evaluation score. Qualitative and quantitative analyses indicate that the combination of these techniques was able to successfully extract and summarize the main topics, demonstrating great potential to be a useful informative tool in the assessment of different opinions, issues, and topics publicly discussed. | eng |
| dc.description.resumo | Recentemente, as discussões políticas no Brasil ganharam destaque, tornando-se um dos tópicos mais debatidos nas redes sociais. Fatores como a diversidade de temas, a ocorrência de eventos que atraem a atenção do público e o constante aumento no volume de mensagens tornaram desafiadora a tarefa de identificar de forma clara, concisa e objetiva os principais tópicos das postagens. Nesse contexto, este estudo propõe um novo método automático que explora o uso de técnicas automáticas de geração de tópicos e sumarização em múltiplos níveis utilizando modelos de linguagem de grande escala. O método proposto foi avaliado para gerar resumos (sumários) a partir de \textit{tweets} sobre o domínio da política brasileira coletados durante as eleições presidenciais de 2022. Além do método de sumarização multinível, foi proposto também um novo método de avaliação de sumários baseado na estratégia de divisão e conquista para a aplicação da medida de avaliação automática BERTScore em textos extensos, o qual também agrega o tamanho da sentença gerada como um peso no valor da avaliação. Análises qualitativas e quantitativas indicam que a combinação dessas técnicas foi capaz de extrair e resumir os principais tópicos com sucesso, demonstrando um grande potencial para ser uma ferramenta informativa útil na avaliação de diferentes opiniões, questões e temas discutidos publicamente. | |
| dc.description.sponsorship | Não recebi financiamento | |
| dc.identifier.citation | CAPELLARO, Leonardo. ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21352. | * |
| dc.identifier.uri | https://repositorio.ufscar.br/handle/20.500.14289/21352 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Câmpus São Carlos | |
| dc.publisher.initials | UFSCar | |
| dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
| dc.subject | LLM | |
| dc.subject | Sumarização | |
| dc.subject | Geração de tópicos | |
| dc.subject | ||
| dc.subject | X | |
| dc.subject | Política brasileira | |
| dc.subject | Summarization | eng |
| dc.subject | Topic generation | eng |
| dc.subject | Brazilian Politics | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | |
| dc.title | ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs | |
| dc.title.alternative | ToMAS: Topic-based multilevel abstractive summarization using large language models | eng |
| dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Defesa_Leonardo_Capellaro_Final.pdf
- Tamanho:
- 2.67 MB
- Formato:
- Adobe Portable Document Format