Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos

Maricondi, Thiago Nacrur

Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos

dc.contributor.advisor1	Vincenzi, Auri Marcelo Rizzo
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/0611351138131709
dc.contributor.advisor1orcid	https://orcid.org/0000-0001-5902-1672
dc.contributor.author	Maricondi, Thiago Nacrur
dc.contributor.authorlattes	https://lattes.cnpq.br/1237234894241914
dc.date.accessioned	2025-06-24T12:06:32Z
dc.date.issued	2025-05-06
dc.description.abstract	With the increasing use of social media and the ease of access to digital content—especially among children and adolescents—there has been a significant rise in cases of cyberbullying and online harassment in recent years. In response, several content moderation tools have been developed, such as comment filters, reporting systems, and user profiles dedicated to moderation. However, due to the vast amount of information constantly generated on social media platforms, manual moderation has become impractical, highlighting the importance of automated moderation in reducing the incidence of digital crimes. This work addresses the automatic identification of aggressive behavior in offensive messages found in short and noisy texts using machine learning and deep learning algorithms. A public dataset extracted from platform X was used, containing 20,001 sentences labeled as aggressive 39.1% or non-aggressive 60.9%. Supervised learning models were trained using stratified cross-validation, employing text preprocessing techniques and various algorithms, including BERT, FastText, and ensemble methods, with the goal of assessing the effectiveness of these approaches in the automatic detection of textual aggressiveness. The results showed that the BERT and FastText models achieved excellent recall scores, reaching 96.5% and 95.8%, respectively, significantly outperforming the baseline model in detecting offensive messages.	eng
dc.description.resumo	Com o crescente uso das redes sociais e a facilidade de acesso a conteúdos digitais, especialmente entre crianças e jovens, houve um aumento significativo nos casos de cyberbullying e assédio virtual nos últimos anos. Em resposta, diversas ferramentas de moderação de conteúdo foram desenvolvidas, como filtros de comentários, sistemas de denúncia e perfis de usuários dedicados à moderação. No entanto, devido à enorme quantidade de informações geradas continuamente nas redes sociais, a moderação manual tornou-se impraticável, o que destaca a importância da moderação automática na redução da incidência de crimes digitais. Este trabalho aborda a identificação automática de comportamentos agressivos em mensagens ofensivas, presentes em textos curtos e ruidosos, por meio de algoritmos de aprendizado de máquina e aprendizado profundo. Utilizou-se um conjunto de dados público extraído da plataforma X, contendo 20.001 sentenças rotuladas como agressivas 39,1% ou não agressivas 60,9%. Modelos de aprendizado supervisionado foram treinados com validação cruzada estratificada, utilizando técnicas de pré-processamento textual e diferentes algoritmos, incluindo BERT, FastText e métodos ensemble, com o objetivo de avaliar a eficácia dessas abordagens na detecção automática de agressividade textual. Os resultados obtidos demonstraram que os modelos BERT e FastText apresentaram excelente desempenho em revocação, alcançando 96,5% e 95,8%, respectivamente, superando significativamente o modelo baseline na detecção de mensagens ofensivas.
dc.identifier.citation	MARICONDI, Thiago Nacrur. Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22238.	por
dc.identifier.uri	https://hdl.handle.net/20.500.14289/22238
dc.language.iso	por
dc.publisher	Universidade Federal de São Carlos
dc.publisher.address	Campus São Carlos
dc.publisher.initials	UFSCar
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subject	Aprendizado de máquina
dc.subject	Cyberbullying	eng
dc.subject	Classificação binária
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.title	Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
dc.title.alternative	Comparative analysis of automatic detection methods for offensive messages in short and noisy texts	eng
dc.type	Dissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: dissertacao_thiago.pdf
Tamanho:: 1.4 MB
Formato:: Adobe Portable Document Format

Baixar

Coleções

Teses e Dissertações