Sistema de reconhecimento de fala disártrica usando aprendizagem autossupervisionada

dc.contributor.advisor1Almeida Junior, Jurandy Gomes de
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4495269939725770
dc.contributor.advisor1orcidhttps://orcid.org/0000-0002-4998-6996
dc.contributor.authorGracelli, Ricardo Alexandre
dc.contributor.authorlatteshttps://lattes.cnpq.br/6620281314745744
dc.contributor.authororcidhttps://orcid.org/0009-0007-7457-0603
dc.contributor.refereeComin, Cesar Henrique
dc.contributor.refereeSantos, Thiago Oliveira dos
dc.contributor.refereeLatteshttp://lattes.cnpq.br/9563440403120931
dc.contributor.refereeLatteshttp://lattes.cnpq.br/5117339495064254
dc.date.accessioned2025-09-15T20:35:34Z
dc.date.issued2025-09-08
dc.description.abstractThis study aims to develop and evaluate Automatic Speech Recognition (ASR) systems tailored to the needs of individuals with dysarthric speech — a condition that compromises communication clarity and limits the use of voice-based assistive technologies. One of the main challenges in dysarthric speech recognition lies in the scarcity of labeled data, and to address this issue, two complementary and interdependent approaches were examined. The first investigated pathology-oriented data augmentation techniques applied to two Transformer-based processing pipelines: FW1 and FW2. Signal perturbation methods — additive noise, time-stretching, and the proposed Spectral Oclution (SO) — were applied individually and in combination to recordings from the UA-Speech corpus. Exploratory analysis of Word Recognition Accuracy (WRA), Word Error Rate (WER), and Character Error Rate (CER) curves showed that combining noise and time-stretching consistently reduced errors in speakers with moderate intelligibility; SO provided additional gains in specific cases; and the union of all three perturbations benefited severe cases, although it could degrade nearly typical voices due to spectral overheating. The second approach, built upon the findings of the first, employed supervised pre-training on typical speech from the LJSpeech corpus. These baseline models were then subjected to a self-supervised contrastive cycle on the typical partition of UA-Speech, where the same transformations from Phase 1 (noise, time-stretching, and SO) were reused to generate positive pairs for contrastive training. Thus, augmentation strategies were not only validated in isolation but also served as the foundation for the contrastive stage. We evaluated two methods: Simple Framework for Contrastive Learning of Visual Representations (SimCLR) and Swapping Assignments between Views (SwAV). The refined weights were then transferred for fine-tuning on dysarthric datasets. Compared to the baseline trained solely on LJSpeech, both contrastive methods enhanced performance: SimCLR showed higher sensitivity to severe speakers, while SwAV maintained stable performance across all intelligibility levels, further reducing CER and WER and increasing WRA. In some severe cases, WER was reduced by more than 20 percentage points. In summary, the integration of targeted data augmentation and contrastive pre-training resulted in ASR models more robust to the articulatory variability of dysarthria, supporting the inclusion of dysarthric speakers in voice-based communication systems.eng
dc.description.resumoEste estudo tem como objetivo desenvolver e avaliar sistemas de Reconhecimento Automático de Fala (do inglês: Automatic Speech Recognition) (ASR) que atendam às necessidades de indivíduos com fala disártrica — condição que compromete a clareza da comunicação e limita o uso de tecnologias assistivas baseadas em voz. Um dos principais problemas em relação ao reconhecimento de fala disártrica reside na escassez de dados rotulados e, para enfrentar esse desafio, foram examinadas duas abordagens complementares e interdependentes. Na primeira, investigaram-se técnicas de data augmentation orientadas à patologia, aplicadas a dois fluxos de processamento com arquiteturas baseadas em Transformadores: FW1 e FW2. Os métodos de perturbação de sinais — ruído aditivo, dilatação temporal e Oclusão Espectral (do inglês: Spectral Occlusion) (SO) (método adicional proposto) — foram aplicados isoladamente e em combinações às gravações da base UA-Speech. A análise exploratória das curvas de Acurácia no Reconhecimento de palavras (do inglês: Word Recognition Accuracy) (WRA), Taxa de Erro de Palavras (do inglês: Word Error Rate) (WER) e Taxa de Erro de Caracteres (do inglês: Character Error Rate) (CER) mostrou que ruídos somados à dilatação temporal reduzem consistentemente os erros em falantes de inteligibilidade moderada; a SO adiciona ganhos pontuais; e a união das três perturbações beneficia casos severos, embora possa degradar vozes quase normotípicas devido ao sobreaquecimento espectral. A segunda abordagem, construída sobre os achados da primeira, utilizou um pré-treinamento supervisionado em fala normotípica da base LJSpeech. Esses modelos de referência foram então submetidos a um ciclo autossupervisionado contrastivo na partição de falantes normotípicos da base UA-Speech, em que as mesmas transformações avaliadas na Fase 1 (ruído, dilatação temporal e SO) foram reutilizadas para gerar pares positivos de treinamento contrastivo. Dessa forma, as estratégias de aumento de dados não apenas foram validadas isoladamente, mas também forneceram o alicerce para a etapa contrastiva. Avaliamos dois métodos: Estrutura Simples para Aprendizado Contrastivo de Representações Visuais (do inglês: Simple Framework for Contrastive Learning of Visual Representations) (SimCLR) e Trocando Atribuições entre Visões (do inglês: Swapping Assignments between Views) (SwAV). Os pesos assim refinados foram então transferidos para o ajuste final nos conjuntos disártricos. Em comparação ao modelo de referência treinado apenas em LJSpeech, ambos os métodos contrastivos ampliaram os ganhos: o SimCLR mostrou maior sensibilidade a falantes severos, enquanto o SwAV manteve desempenho estável em todos os níveis de inteligibilidade, reduzindo adicionalmente a CER e a WER e elevando a WRA. Em alguns casos severos, observou-se redução superior a 20 pontos percentuais em WER. Em síntese, a integração entre aumento de dados específico e pré-treinamento contrastivo resultou em modelos de ASR mais robustos às variações articulatórias da disartria, favorecendo a inclusão de pessoas com fala disártrica em sistemas de comunicação baseados em voz.por
dc.description.sponsorshipNão recebi financiamento
dc.identifier.citationGRACELLI, Ricardo Alexandre. Sistema de reconhecimento de fala disártrica usando aprendizagem autossupervisionada. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22760.por
dc.identifier.urihttps://hdl.handle.net/20.500.14289/22760
dc.language.isopor
dc.publisherUniversidade Federal de São Carlos
dc.publisher.addressCampus Sorocaba
dc.publisher.initialsUFSCar
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computação - PPGCC-So
dc.relation.urihttps://ieeexplore.ieee.org/document/10600718
dc.rightsAttribution-NonCommercial 3.0 Brazilen
dc.rights.urihttp://creativecommons.org/licenses/by-nc/3.0/br/
dc.subjectDisartriapor
dc.subjectReconhecimentopor
dc.subjectFalapor
dc.subjectVisãopor
dc.subjectComputacionalpor
dc.subjectAprendizadopor
dc.subjectProfundopor
dc.subjectAutossupervisionadopor
dc.subjectContrastivopor
dc.subjectDysathriaeng
dc.subjectSpeecheng
dc.subjectRecognitioneng
dc.subjectComputereng
dc.subjectVisioneng
dc.subjectDeepeng
dc.subjectLearningeng
dc.subjectContrastiveeng
dc.subjectSelf-Supervisedeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.cnpqCIENCIAS DA SAUDE::FONOAUDIOLOGIA
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.cnpqENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA::PROCESSAMENTO DE SINAIS BIOLOGICOS
dc.subject.ods3. Saúde e Bem-Estar
dc.subject.ods10. Redução das Desigualdades
dc.titleSistema de reconhecimento de fala disártrica usando aprendizagem autossupervisionadapor
dc.title.alternativeDysarthric speech recognition system using self-supervised learningeng
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação de Mestrado_Ricardo_Gracelli.pdf
Tamanho:
13.98 MB
Formato:
Adobe Portable Document Format
Descrição:
Gracelli_2025_PPGCC_So_Final.pdf