Sistema de reconhecimento de fala disártrica usando aprendizagem autossupervisionada

Gracelli, Ricardo Alexandre

Sistema de reconhecimento de fala disártrica usando aprendizagem autossupervisionada

dc.contributor.advisor1	Almeida Junior, Jurandy Gomes de
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/4495269939725770
dc.contributor.advisor1orcid	https://orcid.org/0000-0002-4998-6996
dc.contributor.author	Gracelli, Ricardo Alexandre
dc.contributor.authorlattes	https://lattes.cnpq.br/6620281314745744
dc.contributor.authororcid	https://orcid.org/0009-0007-7457-0603
dc.contributor.referee	Comin, Cesar Henrique
dc.contributor.referee	Santos, Thiago Oliveira dos
dc.contributor.refereeLattes	https://lattes.cnpq.br/9563440403120931
dc.contributor.refereeLattes	https://lattes.cnpq.br/5117339495064254
dc.date.accessioned	2025-09-15T20:35:34Z
dc.date.issued	2025-09-08
dc.description.abstract	This study aims to develop and evaluate Automatic Speech Recognition (ASR) systems tailored to the needs of individuals with dysarthric speech — a condition that compromises communication clarity and limits the use of voice-based assistive technologies. One of the main challenges in dysarthric speech recognition lies in the scarcity of labeled data, and to address this issue, two complementary and interdependent approaches were examined. The first investigated pathology-oriented data augmentation techniques applied to two Transformer-based processing pipelines: FW1 and FW2. Signal perturbation methods — additive noise, time-stretching, and the proposed Spectral Oclution (SO) — were applied individually and in combination to recordings from the UA-Speech corpus. Exploratory analysis of Word Recognition Accuracy (WRA), Word Error Rate (WER), and Character Error Rate (CER) curves showed that combining noise and time-stretching consistently reduced errors in speakers with moderate intelligibility; SO provided additional gains in specific cases; and the union of all three perturbations benefited severe cases, although it could degrade nearly typical voices due to spectral overheating. The second approach, built upon the findings of the first, employed supervised pre-training on typical speech from the LJSpeech corpus. These baseline models were then subjected to a self-supervised contrastive cycle on the typical partition of UA-Speech, where the same transformations from Phase 1 (noise, time-stretching, and SO) were reused to generate positive pairs for contrastive training. Thus, augmentation strategies were not only validated in isolation but also served as the foundation for the contrastive stage. We evaluated two methods: Simple Framework for Contrastive Learning of Visual Representations (SimCLR) and Swapping Assignments between Views (SwAV). The refined weights were then transferred for fine-tuning on dysarthric datasets. Compared to the baseline trained solely on LJSpeech, both contrastive methods enhanced performance: SimCLR showed higher sensitivity to severe speakers, while SwAV maintained stable performance across all intelligibility levels, further reducing CER and WER and increasing WRA. In some severe cases, WER was reduced by more than 20 percentage points. In summary, the integration of targeted data augmentation and contrastive pre-training resulted in ASR models more robust to the articulatory variability of dysarthria, supporting the inclusion of dysarthric speakers in voice-based communication systems.	eng
dc.description.resumo	Este estudo tem como objetivo desenvolver e avaliar sistemas de Reconhecimento Automático de Fala (do inglês: Automatic Speech Recognition) (ASR) que atendam às necessidades de indivíduos com fala disártrica — condição que compromete a clareza da comunicação e limita o uso de tecnologias assistivas baseadas em voz. Um dos principais problemas em relação ao reconhecimento de fala disártrica reside na escassez de dados rotulados e, para enfrentar esse desafio, foram examinadas duas abordagens complementares e interdependentes. Na primeira, investigaram-se técnicas de data augmentation orientadas à patologia, aplicadas a dois fluxos de processamento com arquiteturas baseadas em Transformadores: FW1 e FW2. Os métodos de perturbação de sinais — ruído aditivo, dilatação temporal e Oclusão Espectral (do inglês: Spectral Occlusion) (SO) (método adicional proposto) — foram aplicados isoladamente e em combinações às gravações da base UA-Speech. A análise exploratória das curvas de Acurácia no Reconhecimento de palavras (do inglês: Word Recognition Accuracy) (WRA), Taxa de Erro de Palavras (do inglês: Word Error Rate) (WER) e Taxa de Erro de Caracteres (do inglês: Character Error Rate) (CER) mostrou que ruídos somados à dilatação temporal reduzem consistentemente os erros em falantes de inteligibilidade moderada; a SO adiciona ganhos pontuais; e a união das três perturbações beneficia casos severos, embora possa degradar vozes quase normotípicas devido ao sobreaquecimento espectral. A segunda abordagem, construída sobre os achados da primeira, utilizou um pré-treinamento supervisionado em fala normotípica da base LJSpeech. Esses modelos de referência foram então submetidos a um ciclo autossupervisionado contrastivo na partição de falantes normotípicos da base UA-Speech, em que as mesmas transformações avaliadas na Fase 1 (ruído, dilatação temporal e SO) foram reutilizadas para gerar pares positivos de treinamento contrastivo. Dessa forma, as estratégias de aumento de dados não apenas foram validadas isoladamente, mas também forneceram o alicerce para a etapa contrastiva. Avaliamos dois métodos: Estrutura Simples para Aprendizado Contrastivo de Representações Visuais (do inglês: Simple Framework for Contrastive Learning of Visual Representations) (SimCLR) e Trocando Atribuições entre Visões (do inglês: Swapping Assignments between Views) (SwAV). Os pesos assim refinados foram então transferidos para o ajuste final nos conjuntos disártricos. Em comparação ao modelo de referência treinado apenas em LJSpeech, ambos os métodos contrastivos ampliaram os ganhos: o SimCLR mostrou maior sensibilidade a falantes severos, enquanto o SwAV manteve desempenho estável em todos os níveis de inteligibilidade, reduzindo adicionalmente a CER e a WER e elevando a WRA. Em alguns casos severos, observou-se redução superior a 20 pontos percentuais em WER. Em síntese, a integração entre aumento de dados específico e pré-treinamento contrastivo resultou em modelos de ASR mais robustos às variações articulatórias da disartria, favorecendo a inclusão de pessoas com fala disártrica em sistemas de comunicação baseados em voz.	por
dc.description.sponsorship	Não recebi financiamento
dc.identifier.citation	GRACELLI, Ricardo Alexandre. Sistema de reconhecimento de fala disártrica usando aprendizagem autossupervisionada. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22760.	por
dc.identifier.uri	https://hdl.handle.net/20.500.14289/22760
dc.language.iso	por
dc.publisher	Universidade Federal de São Carlos
dc.publisher.address	Campus Sorocaba
dc.publisher.initials	UFSCar
dc.publisher.program	Programa de Pós-Graduação em Ciência da Computação - PPGCC-So
dc.relation.uri	https://ieeexplore.ieee.org/document/10600718
dc.rights	Attribution-NonCommercial 3.0 Brazil	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc/3.0/br/
dc.subject	Disartria	por
dc.subject	Reconhecimento	por
dc.subject	Fala	por
dc.subject	Visão	por
dc.subject	Computacional	por
dc.subject	Aprendizado	por
dc.subject	Profundo	por
dc.subject	Autossupervisionado	por
dc.subject	Contrastivo	por
dc.subject	Dysathria	eng
dc.subject	Speech	eng
dc.subject	Recognition	eng
dc.subject	Computer	eng
dc.subject	Vision	eng
dc.subject	Deep	eng
dc.subject	Learning	eng
dc.subject	Contrastive	eng
dc.subject	Self-Supervised	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.cnpq	CIENCIAS DA SAUDE::FONOAUDIOLOGIA
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.cnpq	ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA::PROCESSAMENTO DE SINAIS BIOLOGICOS
dc.subject.ods	3. Saúde e Bem-Estar
dc.subject.ods	10. Redução das Desigualdades
dc.title	Sistema de reconhecimento de fala disártrica usando aprendizagem autossupervisionada	por
dc.title.alternative	Dysarthric speech recognition system using self-supervised learning	eng
dc.type	Dissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Dissertação de Mestrado_Ricardo_Gracelli.pdf
Tamanho:: 13.98 MB
Formato:: Adobe Portable Document Format
Descrição:: Gracelli_2025_PPGCC_So_Final.pdf

Baixar

Coleções

Teses e Dissertações