Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos
| dc.contributor.advisor1 | Vincenzi, Auri Marcelo Rizzo | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/0611351138131709 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0001-5902-1672 | |
| dc.contributor.author | Maricondi, Thiago Nacrur | |
| dc.contributor.authorlattes | http://lattes.cnpq.br/1237234894241914 | |
| dc.date.accessioned | 2025-06-24T12:06:32Z | |
| dc.date.issued | 2025-05-06 | |
| dc.description.abstract | With the increasing use of social media and the ease of access to digital content—especially among children and adolescents—there has been a significant rise in cases of cyberbullying and online harassment in recent years. In response, several content moderation tools have been developed, such as comment filters, reporting systems, and user profiles dedicated to moderation. However, due to the vast amount of information constantly generated on social media platforms, manual moderation has become impractical, highlighting the importance of automated moderation in reducing the incidence of digital crimes. This work addresses the automatic identification of aggressive behavior in offensive messages found in short and noisy texts using machine learning and deep learning algorithms. A public dataset extracted from platform X was used, containing 20,001 sentences labeled as aggressive 39.1% or non-aggressive 60.9%. Supervised learning models were trained using stratified cross-validation, employing text preprocessing techniques and various algorithms, including BERT, FastText, and ensemble methods, with the goal of assessing the effectiveness of these approaches in the automatic detection of textual aggressiveness. The results showed that the BERT and FastText models achieved excellent recall scores, reaching 96.5% and 95.8%, respectively, significantly outperforming the baseline model in detecting offensive messages. | eng |
| dc.description.resumo | Com o crescente uso das redes sociais e a facilidade de acesso a conteúdos digitais, especialmente entre crianças e jovens, houve um aumento significativo nos casos de cyberbullying e assédio virtual nos últimos anos. Em resposta, diversas ferramentas de moderação de conteúdo foram desenvolvidas, como filtros de comentários, sistemas de denúncia e perfis de usuários dedicados à moderação. No entanto, devido à enorme quantidade de informações geradas continuamente nas redes sociais, a moderação manual tornou-se impraticável, o que destaca a importância da moderação automática na redução da incidência de crimes digitais. Este trabalho aborda a identificação automática de comportamentos agressivos em mensagens ofensivas, presentes em textos curtos e ruidosos, por meio de algoritmos de aprendizado de máquina e aprendizado profundo. Utilizou-se um conjunto de dados público extraído da plataforma X, contendo 20.001 sentenças rotuladas como agressivas 39,1% ou não agressivas 60,9%. Modelos de aprendizado supervisionado foram treinados com validação cruzada estratificada, utilizando técnicas de pré-processamento textual e diferentes algoritmos, incluindo BERT, FastText e métodos ensemble, com o objetivo de avaliar a eficácia dessas abordagens na detecção automática de agressividade textual. Os resultados obtidos demonstraram que os modelos BERT e FastText apresentaram excelente desempenho em revocação, alcançando 96,5% e 95,8%, respectivamente, superando significativamente o modelo baseline na detecção de mensagens ofensivas. | |
| dc.identifier.citation | MARICONDI, Thiago Nacrur. Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22238. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/22238 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus São Carlos | |
| dc.publisher.initials | UFSCar | |
| dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC | |
| dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | |
| dc.subject | Aprendizado de máquina | |
| dc.subject | Cyberbullying | eng |
| dc.subject | Classificação binária | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | |
| dc.title | Análise comparativa de métodos de detecção automática de mensagens ofensivas em textos curtos e ruidosos | |
| dc.title.alternative | Comparative analysis of automatic detection methods for offensive messages in short and noisy texts | eng |
| dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- dissertacao_thiago.pdf
- Tamanho:
- 1.4 MB
- Formato:
- Adobe Portable Document Format