Sistema de reconhecimento de fala disártrica usando aprendizagem autossupervisionada
| dc.contributor.advisor1 | Almeida Junior, Jurandy Gomes de | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/4495269939725770 | |
| dc.contributor.advisor1orcid | https://orcid.org/0000-0002-4998-6996 | |
| dc.contributor.author | Gracelli, Ricardo Alexandre | |
| dc.contributor.authorlattes | https://lattes.cnpq.br/6620281314745744 | |
| dc.contributor.authororcid | https://orcid.org/0009-0007-7457-0603 | |
| dc.contributor.referee | Comin, Cesar Henrique | |
| dc.contributor.referee | Santos, Thiago Oliveira dos | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/9563440403120931 | |
| dc.contributor.refereeLattes | http://lattes.cnpq.br/5117339495064254 | |
| dc.date.accessioned | 2025-09-15T20:35:34Z | |
| dc.date.issued | 2025-09-08 | |
| dc.description.abstract | This study aims to develop and evaluate Automatic Speech Recognition (ASR) systems tailored to the needs of individuals with dysarthric speech — a condition that compromises communication clarity and limits the use of voice-based assistive technologies. One of the main challenges in dysarthric speech recognition lies in the scarcity of labeled data, and to address this issue, two complementary and interdependent approaches were examined. The first investigated pathology-oriented data augmentation techniques applied to two Transformer-based processing pipelines: FW1 and FW2. Signal perturbation methods — additive noise, time-stretching, and the proposed Spectral Oclution (SO) — were applied individually and in combination to recordings from the UA-Speech corpus. Exploratory analysis of Word Recognition Accuracy (WRA), Word Error Rate (WER), and Character Error Rate (CER) curves showed that combining noise and time-stretching consistently reduced errors in speakers with moderate intelligibility; SO provided additional gains in specific cases; and the union of all three perturbations benefited severe cases, although it could degrade nearly typical voices due to spectral overheating. The second approach, built upon the findings of the first, employed supervised pre-training on typical speech from the LJSpeech corpus. These baseline models were then subjected to a self-supervised contrastive cycle on the typical partition of UA-Speech, where the same transformations from Phase 1 (noise, time-stretching, and SO) were reused to generate positive pairs for contrastive training. Thus, augmentation strategies were not only validated in isolation but also served as the foundation for the contrastive stage. We evaluated two methods: Simple Framework for Contrastive Learning of Visual Representations (SimCLR) and Swapping Assignments between Views (SwAV). The refined weights were then transferred for fine-tuning on dysarthric datasets. Compared to the baseline trained solely on LJSpeech, both contrastive methods enhanced performance: SimCLR showed higher sensitivity to severe speakers, while SwAV maintained stable performance across all intelligibility levels, further reducing CER and WER and increasing WRA. In some severe cases, WER was reduced by more than 20 percentage points. In summary, the integration of targeted data augmentation and contrastive pre-training resulted in ASR models more robust to the articulatory variability of dysarthria, supporting the inclusion of dysarthric speakers in voice-based communication systems. | eng |
| dc.description.resumo | Este estudo tem como objetivo desenvolver e avaliar sistemas de Reconhecimento Automático de Fala (do inglês: Automatic Speech Recognition) (ASR) que atendam às necessidades de indivíduos com fala disártrica — condição que compromete a clareza da comunicação e limita o uso de tecnologias assistivas baseadas em voz. Um dos principais problemas em relação ao reconhecimento de fala disártrica reside na escassez de dados rotulados e, para enfrentar esse desafio, foram examinadas duas abordagens complementares e interdependentes. Na primeira, investigaram-se técnicas de data augmentation orientadas à patologia, aplicadas a dois fluxos de processamento com arquiteturas baseadas em Transformadores: FW1 e FW2. Os métodos de perturbação de sinais — ruído aditivo, dilatação temporal e Oclusão Espectral (do inglês: Spectral Occlusion) (SO) (método adicional proposto) — foram aplicados isoladamente e em combinações às gravações da base UA-Speech. A análise exploratória das curvas de Acurácia no Reconhecimento de palavras (do inglês: Word Recognition Accuracy) (WRA), Taxa de Erro de Palavras (do inglês: Word Error Rate) (WER) e Taxa de Erro de Caracteres (do inglês: Character Error Rate) (CER) mostrou que ruídos somados à dilatação temporal reduzem consistentemente os erros em falantes de inteligibilidade moderada; a SO adiciona ganhos pontuais; e a união das três perturbações beneficia casos severos, embora possa degradar vozes quase normotípicas devido ao sobreaquecimento espectral. A segunda abordagem, construída sobre os achados da primeira, utilizou um pré-treinamento supervisionado em fala normotípica da base LJSpeech. Esses modelos de referência foram então submetidos a um ciclo autossupervisionado contrastivo na partição de falantes normotípicos da base UA-Speech, em que as mesmas transformações avaliadas na Fase 1 (ruído, dilatação temporal e SO) foram reutilizadas para gerar pares positivos de treinamento contrastivo. Dessa forma, as estratégias de aumento de dados não apenas foram validadas isoladamente, mas também forneceram o alicerce para a etapa contrastiva. Avaliamos dois métodos: Estrutura Simples para Aprendizado Contrastivo de Representações Visuais (do inglês: Simple Framework for Contrastive Learning of Visual Representations) (SimCLR) e Trocando Atribuições entre Visões (do inglês: Swapping Assignments between Views) (SwAV). Os pesos assim refinados foram então transferidos para o ajuste final nos conjuntos disártricos. Em comparação ao modelo de referência treinado apenas em LJSpeech, ambos os métodos contrastivos ampliaram os ganhos: o SimCLR mostrou maior sensibilidade a falantes severos, enquanto o SwAV manteve desempenho estável em todos os níveis de inteligibilidade, reduzindo adicionalmente a CER e a WER e elevando a WRA. Em alguns casos severos, observou-se redução superior a 20 pontos percentuais em WER. Em síntese, a integração entre aumento de dados específico e pré-treinamento contrastivo resultou em modelos de ASR mais robustos às variações articulatórias da disartria, favorecendo a inclusão de pessoas com fala disártrica em sistemas de comunicação baseados em voz. | por |
| dc.description.sponsorship | Não recebi financiamento | |
| dc.identifier.citation | GRACELLI, Ricardo Alexandre. Sistema de reconhecimento de fala disártrica usando aprendizagem autossupervisionada. 2025. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, Sorocaba, 2025. Disponível em: https://repositorio.ufscar.br/handle/20.500.14289/22760. | por |
| dc.identifier.uri | https://hdl.handle.net/20.500.14289/22760 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de São Carlos | |
| dc.publisher.address | Campus Sorocaba | |
| dc.publisher.initials | UFSCar | |
| dc.publisher.program | Programa de Pós-Graduação em Ciência da Computação - PPGCC-So | |
| dc.relation.uri | https://ieeexplore.ieee.org/document/10600718 | |
| dc.rights | Attribution-NonCommercial 3.0 Brazil | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc/3.0/br/ | |
| dc.subject | Disartria | por |
| dc.subject | Reconhecimento | por |
| dc.subject | Fala | por |
| dc.subject | Visão | por |
| dc.subject | Computacional | por |
| dc.subject | Aprendizado | por |
| dc.subject | Profundo | por |
| dc.subject | Autossupervisionado | por |
| dc.subject | Contrastivo | por |
| dc.subject | Dysathria | eng |
| dc.subject | Speech | eng |
| dc.subject | Recognition | eng |
| dc.subject | Computer | eng |
| dc.subject | Vision | eng |
| dc.subject | Deep | eng |
| dc.subject | Learning | eng |
| dc.subject | Contrastive | eng |
| dc.subject | Self-Supervised | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | |
| dc.subject.cnpq | CIENCIAS DA SAUDE::FONOAUDIOLOGIA | |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
| dc.subject.cnpq | ENGENHARIAS::ENGENHARIA BIOMEDICA::BIOENGENHARIA::PROCESSAMENTO DE SINAIS BIOLOGICOS | |
| dc.subject.ods | 3. Saúde e Bem-Estar | |
| dc.subject.ods | 10. Redução das Desigualdades | |
| dc.title | Sistema de reconhecimento de fala disártrica usando aprendizagem autossupervisionada | por |
| dc.title.alternative | Dysarthric speech recognition system using self-supervised learning | eng |
| dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Dissertação de Mestrado_Ricardo_Gracelli.pdf
- Tamanho:
- 13.98 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
- Gracelli_2025_PPGCC_So_Final.pdf