ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs

dc.contributor.advisor1Caseli, Helena de Medeiros
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6608582057810385
dc.contributor.advisor1orcidhttps://orcid.org/0000-0003-3996-8599
dc.contributor.authorCapellaro, Leonardo
dc.contributor.authorethnicityBranco
dc.contributor.authorlatteshttp://lattes.cnpq.br/1323489363246457
dc.contributor.authororcidhttps://orcid.org/0009-0009-0514-2976
dc.date.accessioned2025-02-11T18:12:13Z
dc.date.issued2025-01-30
dc.description.abstractRecently, political discussions in Brazil have gained prominence, becoming one of the most debated topics on social media. Factors such as the diversity of themes, the occurrence of events that attract public attention, and the constant increase in the volume of messages have made it challenging to identify in a clear, concise, and objective manner the main topics of the posts. In this context, this study proposes a new automated method that explores the use of automatic topic generation and multi-level summarization techniques using large-scale language models. The proposed method was evaluated to generate summaries from tweets about Brazilian politics collected during the 2022 presidential elections. In addition to the multi-level summarization method, a new summary evaluation method was also proposed, based on the divide and conquer strategy for applying the BERTScore automatic evaluation measure to lengthy texts, which also incorporates the generated sentence size as a weight in the evaluation score. Qualitative and quantitative analyses indicate that the combination of these techniques was able to successfully extract and summarize the main topics, demonstrating great potential to be a useful informative tool in the assessment of different opinions, issues, and topics publicly discussed.eng
dc.description.resumoRecentemente, as discussões políticas no Brasil ganharam destaque, tornando-se um dos tópicos mais debatidos nas redes sociais. Fatores como a diversidade de temas, a ocorrência de eventos que atraem a atenção do público e o constante aumento no volume de mensagens tornaram desafiadora a tarefa de identificar de forma clara, concisa e objetiva os principais tópicos das postagens. Nesse contexto, este estudo propõe um novo método automático que explora o uso de técnicas automáticas de geração de tópicos e sumarização em múltiplos níveis utilizando modelos de linguagem de grande escala. O método proposto foi avaliado para gerar resumos (sumários) a partir de \textit{tweets} sobre o domínio da política brasileira coletados durante as eleições presidenciais de 2022. Além do método de sumarização multinível, foi proposto também um novo método de avaliação de sumários baseado na estratégia de divisão e conquista para a aplicação da medida de avaliação automática BERTScore em textos extensos, o qual também agrega o tamanho da sentença gerada como um peso no valor da avaliação. Análises qualitativas e quantitativas indicam que a combinação dessas técnicas foi capaz de extrair e resumir os principais tópicos com sucesso, demonstrando um grande potencial para ser uma ferramenta informativa útil na avaliação de diferentes opiniões, questões e temas discutidos publicamente.
dc.description.sponsorshipNão recebi financiamento
dc.identifier.citationCAPELLARO, Leonardo. ToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/21352.*
dc.identifier.urihttps://repositorio.ufscar.br/handle/20.500.14289/21352
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCâmpus São Carlos
dc.publisher.initialsUFSCar
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCC
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectLLM
dc.subjectSumarização
dc.subjectGeração de tópicos
dc.subjectTwitter
dc.subjectX
dc.subjectPolítica brasileira
dc.subjectSummarizationeng
dc.subjectTopic generationeng
dc.subjectBrazilian Politicseng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.titleToMAS: Sumarização abstrativa multinível baseada em tópicos usando LLMs
dc.title.alternativeToMAS: Topic-based multilevel abstractive summarization using large language modelseng
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Defesa_Leonardo_Capellaro_Final.pdf
Tamanho:
2.67 MB
Formato:
Adobe Portable Document Format