Auto-treinamento com ruído utilizando data augmentations para tarefas de detecção de comentários ofensivos e discurso de ódio

Leite, João Augusto

dc.contributor.author	Leite, João Augusto
dc.date.accessioned	2024-07-29T17:55:44Z
dc.date.available	2024-07-29T17:55:44Z
dc.date.issued	2024-07-16
dc.identifier.citation	LEITE, João Augusto. Auto-treinamento com ruído utilizando data augmentations para tarefas de detecção de comentários ofensivos e discurso de ódio. 2024. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/20264.	*
dc.identifier.uri	https://repositorio.ufscar.br/handle/ufscar/20264
dc.description.abstract	Online social media is rife with offensive and hateful comments, necessitating the development of automated detection systems to manage the vast volume of posts generated every second. Creating high-quality human-labeled datasets for this task is challenging and costly, primarily because non-offensive posts significantly outnumber offensive ones. In contrast, unlabeled data is abundant, more accessible, and cheaper to obtain. This thesis explores the application of self-training methods, which leverage weakly-labeled examples to augment training datasets, in the context of offensive and hate speech detection. The core of this thesis is the paper "Noisy Self-Training with Data Augmentations for Offensive and Hate Speech Detection Tasks", which investigates the efficacy of noisy self-training approaches incorporating data augmentation techniques to enhance prediction consistency and robustness against noisy data and adversarial attacks. Experiments are conducted with both default and noisy self-training using three different textual data augmentation techniques across five distinct pre-trained BERT architectures of varying sizes. The results indicated that noisy self-training with textual data augmentations, despite its success in similar settings, decreased performance in offensive and hate speech domains compared to the default method. This finding and reveals limitations of noisy self- training methods with data augmentations for domains such as offensive speech detection, where certain specific keywords cannot be modified without introducing semantic variations.	eng
dc.description.sponsorship	Não recebi financiamento	por
dc.language.iso	eng	por
dc.publisher	Universidade Federal de São Carlos	por
dc.rights	Attribution-NonCommercial-ShareAlike 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/3.0/br/	*
dc.subject	Self-supervision	eng
dc.subject	Offensive and hateful speech detection	eng
dc.subject	Data augmentation	eng
dc.title	Auto-treinamento com ruído utilizando data augmentations para tarefas de detecção de comentários ofensivos e discurso de ódio	por
dc.title.alternative	Noisy self-training with data augmentations for offensive and hate speech detection tasks	eng
dc.type	Dissertação	por
dc.contributor.advisor1	Silva, Diego Furtado
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/7662777934692986	por
dc.description.resumo	As mídias sociais online estão repletas de comentários ofensivos e discursos de ódio, o que exige o desenvolvimento de sistemas automatizados de detecção para gerenciar o vasto volume de postagens geradas a cada segundo. Criar conjuntos de dados de alta qualidade rotulados por humanos para essa tarefa é desafiador e caro, principalmente porque as postagens não-ofensivas superam significativamente as ofensivas. Em contraste, dados não-rotulados são abundantes, mais acessíveis e mais baratos de obter. Esta tese explora a aplicação de métodos de self-supervision, que utilizam exemplos fracamente rotulados para aumentar os conjuntos de dados de treinamento. A contribuição central desta tese é o artigo "Noisy Self-Training with Data Augmentations for Offensive and Hate Speech Detection Tasks", que investiga a eficácia de abordagens de auto-treinamento com ruído utilizando técnicas data augmentation para melhorar a consistência das predições e a robustez contra dados ruidosos e ataques adversariais. Experimentos foram realizados com self-training padrão e com ruído, utilizando três diferentes técnicas de data augmentation textuais em cinco distintas arquiteturas BERT pré-treinadas de tamanhos variados. Os resultados indicam que o auto-treinamento com ruído e data augmentations textuais, apesar do sucesso em configurações semelhantes, prejudicam o desempenho dos modelos treinados para a tarefa de detecção de comentários ofensivos e discursos de ódio em comparação com o método padrão. Esse achado revela limitações dos métodos de self-training com ruído e data augmentation para domínios em que a modificação de certas palavras-chave gera alteração semântica.	por
dc.publisher.initials	UFSCar	por
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC	por
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO	por
dc.publisher.address	Câmpus São Carlos	por
dc.contributor.authorlattes	http://lattes.cnpq.br/2523889749935848	por
dc.contributor.authororcid	https://orcid.org/0000-0002-3587-853X	por
dc.contributor.advisor1orcid	https://orcid.org/0000-0002-5184-9413	por

Files in this item

Name:: noisy_student_dissertacao_final.pdf
Size:: 366.1Kb
Format:: PDF

View/Open

Name:: license_rdf
Size:: 1.011Kb
Format:: application/rdf+xml

View/Open

This item appears in the following Collection(s)

Teses e dissertações

Show simple item record

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-ShareAlike 3.0 Brazil