Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Processamento de Áudio e Fala# Aprendizagem de máquinas# Som

Melhorando o Reconhecimento de Voz em Conversas Criança-Adulto

Avaliando modelos de reconhecimento de fala para sessões de diagnóstico de autismo.

― 7 min ler


Reconhecimento de FalaReconhecimento de FalaInfantil em Focode autismo.Avaliação de modelos para diagnósticos
Índice

Transcrever conversas entre crianças e adultos é super importante, especialmente em ambientes clínicos, pra ajudar a diagnosticar e entender distúrbios de desenvolvimento como o Transtorno do Espectro Autista (TEA). Recentemente, teve uma evolução bem legal na tecnologia de reconhecimento de fala, graças ao aprendizado profundo e a um monte de dados que foram coletados. Mas, como essas novas ferramentas funcionam especificamente nas conversas entre crianças e adultos, ainda não foi estudado o suficiente.

Esse artigo analisa como diferentes modelos de reconhecimento de fala se saem nas conversas entre crianças e adultos durante sessões de diagnóstico de autismo. Os modelos que estamos focando incluem o Whisper, Wav2vec2, HuBERT e WavLM.

A Importância da Transcrição Precisa

Transcrever com precisão as conversas entre crianças e adultos pode dar uma visão melhor sobre a comunicação verbal da criança, que é chave pra entender seu desenvolvimento e a gravidade dos sintomas relacionados ao autismo. Estudos anteriores mostraram que identificar distúrbios de desenvolvimento cedo pode levar a resultados melhores pra criançada. Durante as avaliações de autismo, os profissionais interagem com as crianças através de brincadeiras e conversas, tornando essencial capturar essas trocas da maneira certa.

Apesar dos avanços na tecnologia de reconhecimento de fala, ainda é um desafio criar sistemas eficazes que consigam reconhecer a fala das crianças, especialmente em conversas. Isso acontece por vários motivos. A fala das crianças é diferente da dos adultos de muitas maneiras: elas costumam usar um tom mais alto, têm estilos linguísticos diferentes e podem não pronunciar as palavras de forma clara. Além disso, conseguir dados de fala de qualidade das crianças é complicado. Não existem muitos conjuntos de dados rotulados disponíveis, o que dificulta pros pesquisadores treinarem sistemas de reconhecimento de fala especificamente pra fala infantil.

Desafios no Reconhecimento da Fala Infantil

As diferenças no tom e no tamanho do trato vocal contribuem para os desafios na criação de sistemas que possam reconhecer com precisão a fala das crianças. Elas costumam falar em frases mais curtas e podem ter padrões de fala menos consistentes em comparação com os adultos. Fatores como dificuldades de fala e linguagem associadas a distúrbios como o TEA complicam ainda mais o processo de reconhecimento.

As sessões de diagnóstico para o TEA, conhecidas como Escala de Observação do Diagnóstico do Autismo (ADOS), permitem que os profissionais de saúde observem as habilidades sociais e de comunicação da criança. Essas sessões duram cerca de 40 a 60 minutos e incluem várias atividades projetadas pra estimular as respostas da criança. Transcrever essas sessões pode fornecer insights significativos, mas requer sistemas eficazes de reconhecimento de fala pra lidar com as sutilezas da fala infantil nas conversas.

Avaliando os Modelos de Reconhecimento de Fala

Neste estudo, avaliamos quão bem diversos modelos avançados de reconhecimento de fala se saem na transcrição de conversas entre crianças e adultos durante as sessões de diagnóstico de autismo. O objetivo é avaliar a eficácia desses modelos e identificar oportunidades de melhoria.

Fizemos uma avaliação usando um conjunto de dados que consiste em sessões gravadas do ADOS. Esse conjunto inclui uma mistura balanceada de fala de crianças e adultos, com segmentos rotulados que facilitam a análise do desempenho do modelo. Os segmentos se concentram em atividades de interação-chave projetadas pra estimular respostas verbais da criança enquanto mantêm a conversa fluindo.

Os Modelos em Foco

Analisamos vários modelos diferentes, incluindo o Whisper, que utiliza aprendizado supervisionado, e também modelos auto-supervisionados como Wav2Vec2, HuBERT e WavLM. Cada um desses modelos mostrou melhorias em relação aos métodos tradicionais de reconhecimento de fala.

O Whisper, por exemplo, foi treinado em um conjunto de dados muito grande, o que permite que ele tenha um desempenho melhor em várias condições acústicas e com diferentes falantes. Esse modelo foi especificamente avaliado pra ver como seu desempenho mudaria com tamanhos diferentes, desde variantes básicas até grandes.

Abordagens de Teste

O processo de avaliação envolveu tanto avaliações zero-shot quanto métodos de ajuste fino. Na abordagem zero-shot, testamos quão bem os modelos poderiam se sair sem nenhum treinamento adicional no conjunto de dados específico. Para o ajuste fino, selecionamos o modelo com melhor desempenho e o treinamos ainda mais usando uma parte dos dados, enquanto mantivemos o resto de lado pra testar depois.

Para o ajuste fino, usamos dois cenários: um focando exclusivamente na fala infantil e o outro na fala adulta. Essa abordagem ajuda a entender se os modelos se saem melhor quando são treinados usando exemplos de um grupo específico.

Resultados da Avaliação Zero-Shot

Os resultados da avaliação zero-shot mostraram que os modelos Whisper geralmente se saíram melhor do que os outros modelos. A variante grande do Whisper alcançou uma Taxa de Erro de Palavra (WER) relativamente baixa tanto na fala infantil quanto na adulta. No entanto, havia uma diferença de desempenho notável, com a fala infantil apresentando uma WER mais alta em comparação com a fala adulta.

Essas descobertas sugerem que os modelos têm mais dificuldades em transcrever a fala infantil, possivelmente devido à quantidade limitada de dados de fala infantil disponíveis para o treinamento do modelo.

Ajuste Fino e Melhorias de Desempenho

Quando olhamos os resultados do ajuste fino, houve melhorias significativas na WER tanto para a fala infantil quanto para a adulta. Ajustar o modelo usando fala infantil levou a uma melhoria de 8% na WER para as falas das crianças e uma melhoria de 13% para as falas dos adultos em comparação com a avaliação zero-shot.

Curiosamente, mesmo quando ajustamos o modelo usando apenas fala adulta, o sistema ainda mostrou melhorias notáveis no reconhecimento da fala infantil. Isso sugere que o modelo estava aprendendo características valiosas durante o treinamento, o que impactou positivamente seu desempenho geral.

O Impacto do Comprimento das Frases

Um aspecto adicional que exploramos foi como o comprimento das frases afetou a WER. Descobrimos que as frases mais curtas, particularmente aquelas com apenas uma ou duas palavras, tiveram as taxas de erro mais altas. À medida que o comprimento da frase aumentava, a precisão do reconhecimento melhorava.

Essa relação destaca um problema comum no reconhecimento de fala, onde frases mais curtas costumam ser mais desafiadoras pra identificar corretamente. As descobertas indicam que focar em frases mais longas poderia levar a resultados de transcrição melhores.

Direções Futuras

Esse estudo traz à tona as capacidades e limitações atuais dos sistemas de reconhecimento de fala quando aplicados a conversas entre crianças e adultos no contexto de avaliações de autismo. Embora tenhamos visto melhorias de desempenho, especialmente com o modelo Whisper, ainda há muito trabalho a ser feito.

Os esforços futuros incluirão testar esses modelos em outros conjuntos de dados contendo fala infantil pra ver como eles generalizam em diferentes contextos. Também planejamos explorar várias técnicas de aumento de dados, o que poderia ajudar a fortalecer o desempenho dos sistemas de reconhecimento de fala em interações entre crianças e adultos.

Ao refinar continuamente esses sistemas, podemos trabalhar pra desenvolver ferramentas mais eficazes pra capturar e entender as nuances da fala infantil, apoiando, por fim, um diagnóstico e intervenção melhores para distúrbios de desenvolvimento como o Transtorno do Espectro Autista.

Fonte original

Título: Evaluation of state-of-the-art ASR Models in Child-Adult Interactions

Resumo: The ability to reliably transcribe child-adult conversations in a clinical setting is valuable for diagnosis and understanding of numerous developmental disorders such as Autism Spectrum Disorder. Recent advances in deep learning architectures and availability of large scale transcribed data has led to development of speech foundation models that have shown dramatic improvements in ASR performance. However, the ability of these models to translate well to conversational child-adult interactions is under studied. In this work, we provide a comprehensive evaluation of ASR performance on a dataset containing child-adult interactions from autism diagnostic sessions, using Whisper, Wav2Vec2, HuBERT, and WavLM. We find that speech foundation models show a noticeable performance drop (15-20% absolute WER) for child speech compared to adult speech in the conversational setting. Then, we employ LoRA on the best performing zero shot model (whisper-large) to probe the effectiveness of fine-tuning in a low resource setting, resulting in ~8% absolute WER improvement for child speech and ~13% absolute WER improvement for adult speech.

Autores: Aditya Ashvin, Rimita Lahiri, Aditya Kommineni, Somer Bishop, Catherine Lord, Sudarsana Reddy Kadiri, Shrikanth Narayanan

Última atualização: 2024-09-24 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.16135

Fonte PDF: https://arxiv.org/pdf/2409.16135

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes