Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos

dc.contributor.advisor1Vincenzi, Auri Marcelo Rizzo
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0611351138131709
dc.contributor.advisor1orcidhttps://orcid.org/0000-0001-5902-1672
dc.contributor.authorMaricondi, Thiago Nacrur
dc.contributor.authorlatteshttp://lattes.cnpq.br/1237234894241914
dc.date.accessioned2025-06-24T12:06:32Z
dc.date.issued2025-05-06
dc.description.abstractWith the increasing use of social media and the ease of access to digital content—especially among children and adolescents—there has been a significant rise in cases of cyberbullying and online harassment in recent years. In response, several content moderation tools have been developed, such as comment filters, reporting systems, and user profiles dedicated to moderation. However, due to the vast amount of information constantly generated on social media platforms, manual moderation has become impractical, highlighting the importance of automated moderation in reducing the incidence of digital crimes. This work addresses the automatic identification of aggressive behavior in offensive messages found in short and noisy texts using machine learning and deep learning algorithms. A public dataset extracted from platform X was used, containing 20,001 sentences labeled as aggressive 39.1% or non-aggressive 60.9%. Supervised learning models were trained using stratified cross-validation, employing text preprocessing techniques and various algorithms, including BERT, FastText, and ensemble methods, with the goal of assessing the effectiveness of these approaches in the automatic detection of textual aggressiveness. The results showed that the BERT and FastText models achieved excellent recall scores, reaching 96.5% and 95.8%, respectively, significantly outperforming the baseline model in detecting offensive messages.eng
dc.description.resumoCom o crescente uso das redes sociais e a facilidade de acesso a conteúdos digitais, especialmente entre crianças e jovens, houve um aumento significativo nos casos de cyberbullying e assédio virtual nos últimos anos. Em resposta, diversas ferramentas de moderação de conteúdo foram desenvolvidas, como filtros de comentários, sistemas de denúncia e perfis de usuários dedicados à moderação. No entanto, devido à enorme quantidade de informações geradas continuamente nas redes sociais, a moderação manual tornou-se impraticável, o que destaca a importância da moderação automática na redução da incidência de crimes digitais. Este trabalho aborda a identificação automática de comportamentos agressivos em mensagens ofensivas, presentes em textos curtos e ruidosos, por meio de algoritmos de aprendizado de máquina e aprendizado profundo. Utilizou-se um conjunto de dados público extraído da plataforma X, contendo 20.001 sentenças rotuladas como agressivas 39,1% ou não agressivas 60,9%. Modelos de aprendizado supervisionado foram treinados com validação cruzada estratificada, utilizando técnicas de pré-processamento textual e diferentes algoritmos, incluindo BERT, FastText e métodos ensemble, com o objetivo de avaliar a eficácia dessas abordagens na detecção automática de agressividade textual. Os resultados obtidos demonstraram que os modelos BERT e FastText apresentaram excelente desempenho em revocação, alcançando 96,5% e 95,8%, respectivamente, superando significativamente o modelo baseline na detecção de mensagens ofensivas.
dc.identifier.citationMARICONDI, Thiago Nacrur. Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22238.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/22238
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus São Carlos
dc.publisher.initialsUFSCar
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCC
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/
dc.subjectAprendizado de máquina
dc.subjectCyberbullyingeng
dc.subjectClassificação binária
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.titleAnálise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
dc.title.alternativeComparative analysis of automatic detection methods for offensive messages in short and noisy textseng
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
dissertacao_thiago.pdf
Tamanho:
1.4 MB
Formato:
Adobe Portable Document Format