AUTOMATIC SPEECH RECOGNITION IN PORTUGUESE APPLIED TO RADIO COMMUNICATION

Nome: LUCAS GRIGOLETO SCART

Data de publicação: 06/03/2024

Banca:

Nomeordem decrescente Papel
FILIPE WALL MUTZ Examinador Interno
JORGE LEONID ACHING SAMATELO Examinador Interno
MARIANA RAMPINELLI FERNANDES Examinador Externo
RAQUEL FRIZERA VASSALLO Presidente

Resumo: A fala é a principal forma de comunicação utilizada entre seres humanos, de forma que o seu entendimento é um dos principais alvos do processamento de linguagem natural. O reconhecimento automático da fala, foco deste trabalho, é a capacidade de uma máquina reconhecer o conteúdo das palavras e frases numa língua falada e transformá-las num formato textual. Atualmente,
métodos baseados em redes neurais profundas tem dominado a área de processamento de fala, apresentando resultados de estado da arte em múltiplas aplicações. À medida que o campo do reconhecimento automático de fala continua a evoluir, surgem vários desafios quando se tenta adaptar modelos a novas línguas e conjuntos de dados, particularmente no contexto de gravações de comunicações via rádio, como é o caso deste estudo. Em comparação com o inglês, o português tem menos dados de fala anotados disponíveis, o que torna essencial explorar métodos para utilizar de forma eficaz dados não rotulados durante o treino. Além disso, as gravações de comunicações de rádio apresentam um grau substancial de variação no ruído de fundo e nas características do locutor, em comparação com outros conjuntos de dados de áudio. Esta variabilidade pode afetar a precisão e a robustez do modelo. Este estudo propõe a utilização de dados anotados fora do domínio através de um método de aumento de dados para construir modelos de base. Além disso, explora-se a utilização eficaz de dados não rotulados no domínio através de técnicas de auto-treino, gerando pseudo-rótulos. Por fim, é apresentada uma receita de treinamento eficiente para escalar o treinamento de grandes modelos, minimizando os custos computacionais. Estes modelos foram depois implementados como parte de uma aplicação de processamento de voz, desenvolvida para ajudar no processo de auditoria de comunicações ferroviárias gravadas. Ao efetuar o treino com os dados simulados, observou-se uma redução relativa de 51,7% na taxa de erro de caracteres considerando o nível de ruído mais desafiante (SNR de 0 dB), com uma diminuição semelhante em todos os níveis de ruído quando comparado com o modelo original. Com o auto-treinamento usando dados no domínio, foi observada uma redução de 63,8% na taxa de erro de caracteres quando comparado com o modelo de base. Espera-se que a metodologia desenvolvida neste trabalho abra espaço para o desenvolvimento de modelos de reconhecimento de fala mais robustos com futuras aplicações em radiocomunicação.

Acesso ao documento

Acesso à informação
Transparência Pública

© 2013 Universidade Federal do Espírito Santo. Todos os direitos reservados.
Av. Fernando Ferrari, 514 - Goiabeiras, Vitória - ES | CEP 29075-910