Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Processamento de Áudio e Fala

Abordando Disfluências na Fala em Inglês Indiano

Novo conjunto de dados busca melhorar a compreensão da gagueira em assistentes de voz.

Priyanka Kommagouni, Vamshiraghusimha Narasinga, Purva Barche, Sai Akarsh C, Anil Vuppala

― 7 min ler


Progresso na PesquisaProgresso na Pesquisasobre Gagueiracompreensão das disfluências na fala.Novo conjunto de dados avança a
Índice

Quando as pessoas falam, as coisas raramente saem perfeitas. Você pode hesitar, repetir uma palavra ou ter uma pequena pausa. Esses tropeços na fala são chamados de Disfluências. Algumas disfluências são normais-como quando você diz "hum" ou "ah." Isso é comum. Outras, especialmente as vistas em pessoas que gaguejam, podem ser mais sérias e mostrar sinais de um distúrbio da fala. Entender a diferença é importante, especialmente para criar assistentes de voz melhores que podem ajudar aqueles que gaguejam.

A Importância de Diferenciar Disfluências

Assistentes de voz muitas vezes não entendem quando alguém termina de falar. Para pessoas que gaguejam, isso pode levar a frustrações e interrupções em momentos inconvenientes. É como tentar contar uma piada, mas alguém fica cortando antes da parte engraçada. Reconhecer a diferença entre disfluências típicas e atípicas pode ajudar no diagnóstico precoce da Gagueira em crianças, garantindo que elas recebam a ajuda certa antes que as coisas fiquem complicadas.

Apresentando o IIITH-TISA: Um Novo Conjunto de Dados

Para enfrentar o problema das disfluências na fala em inglês indiano, foi criado um novo conjunto de dados chamado IIITH-TISA. Pense nisso como um tesouro de amostras de fala que inclui diferentes tipos de tropeços na fala. É o primeiro do tipo na Índia e captura como as pessoas gaguejam em inglês. Esse conjunto de dados é importante porque a maioria das pesquisas se concentrou no inglês britânico e americano, deixando uma lacuna quando se trata de falantes indianos.

Um Olhar Mais Detalhado sobre Padrões de Fala

Ao estudar a fala, os pesquisadores descobriram que disfluências típicas ocorrem em cerca de 6% da fala. Isso significa que se você disser 100 palavras, 6 delas podem sair como "hum" ou "tipo." Por outro lado, a gagueira pode ser uma história totalmente diferente, afetando cerca de 70 milhões de pessoas no mundo todo. É essencial reconhecer que nem todas as disfluências são iguais; elas vêm de causas diferentes.

Desafios na Pesquisa da Gagueira

As pesquisas sobre gagueira se concentraram principalmente em encontrar maneiras de detectar e corrigir erros na fala. No entanto, muitas pessoas que gaguejam acham irritante quando assistentes de voz as interrompem muito cedo. Imagine conversar, e um robô decide que você terminou antes mesmo de terminar a sua frase. Isso é só falta de educação! Alguns pesquisadores estão tentando ajustar os sistemas para torná-los mais atenciosos, mas é um equilíbrio complicado porque o que funciona para uma pessoa pode não funcionar para outra.

Detecção Precoce da Gagueira em Crianças

É também vital identificar disfluências cedo nas crianças, já que a gagueira muitas vezes é confundida com tropeços normais do desenvolvimento da linguagem. Crianças tão pequenas quanto dois anos podem começar a perceber que têm uma gagueira, o que pode fazê-las hesitar em falar. A intervenção precoce pode fazer uma grande diferença, então identificar padrões na fala é fundamental.

Compreendendo os Tipos de Disfluências

Tipos de disfluências incluem diferentes eventos como pausas preenchidas, prolongamentos e repetições. Repetições típicas são comuns na fala do dia a dia e geralmente não sinalizam um problema. Mas para aqueles que gaguejam, repetições podem estar ligadas a tensão física em suas vozes. Estudar como essas variações se manifestam pode nos ajudar a criar melhores ferramentas para todos.

Construindo o Conjunto de Dados

O conjunto de dados IIITH-TISA foi construído para incluir vários tipos de disfluências. Usando gravações de pessoas que gaguejam, os pesquisadores coletaram exemplos diversos de fala. A equipe selecionou gravações cuidadosamente para garantir que capturassem a verdadeira natureza da gagueira, focando em fala natural sem ruído de fundo. Eles anotaram cada clipe para indicar quando uma disfluência ocorreu, acumulando uma coleção de mais de 3.000 clipes de áudio.

O que Faz uma Boa Característica?

Na análise de fala, "características" são as características que olhamos para ajudar a entender os padrões de fala. Os pesquisadores propuseram usar algo chamado Coeficientes Cepstrais de Janela Zero com Realce Perceptual (PE-ZTWCC) para sua análise. Parece complicado, mas em termos simples, ajuda a capturar as nuances da fala melhor, especialmente as diferenças em como soam disfluências típicas e atípicas.

Como Funciona a Classificação?

Para classificar as diferenças na fala, foi usada uma rede neural rasa (TDNN). Isso significa que o modelo de computador analisou pequenos trechos de áudio para descobrir se alguém estava falando de maneira típica ou se estava gaguejando. Isso é essencial porque analisar trechos mais longos de fala pode complicar as coisas, especialmente com um conjunto de dados menor.

O Papel do Cepstra Delta Deslocado (SDC)

Para melhorar ainda mais o modelo, os pesquisadores adicionaram características do Cepstra Delta Deslocado (SDC), que ajudam a capturar mudanças ao longo do tempo na fala. Ao combinar essas características com o PE-ZTWCC, eles criaram uma ferramenta poderosa para distinguir entre diferentes tipos de disfluências. Isso é como adicionar um turbo em um carro; ajuda o modelo a acelerar sua capacidade de reconhecer padrões.

Desmembrando a Coleta do Conjunto de Dados

A criação do conjunto de dados envolveu trabalho em equipe. Um grupo de seis alunos passou por treinamento para aprender a identificar e categorizar diferentes tipos de disfluências. Eles prestaram atenção a detalhes como quanto tempo uma gagueira durou e que tipo de gagueira era. Esse esforço colaborativo tornou o conjunto de dados mais preciso e útil para pesquisa.

Avaliando os Modelos

Para ver quão bem o modelo funcionava, os pesquisadores compararam suas novas características com técnicas tradicionais de análise de fala. Eles testaram vários métodos para medir com que frequência o modelo identificava corretamente disfluências típicas e atípicas. Os resultados mostraram claramente que as características PE-ZTWCC superaram as outras, tornando-as a melhor escolha para reconhecer padrões de fala.

Resultados da Pesquisa

Ao comparar os tipos de disfluências, os resultados indicaram que repetições eram mais facilmente identificadas do que pausas preenchidas ou prolongamentos. É como reconhecer a risada de alguém em uma sala cheia-tem algo distinto que se destaca. Essa descoberta ajuda os pesquisadores a entender como melhor adaptar seus modelos para reconhecer diferentes padrões de fala.

Conclusão e Direções Futuras

O conjunto de dados IIITH-TISA representa um avanço significativo na compreensão das disfluências na fala no contexto indiano. Ele abre portas para pesquisas futuras com foco na melhora de assistentes de voz e ferramentas de terapia da fala para aqueles que gaguejam. Ao aprimorar nossa compreensão dos padrões de fala, podemos criar tecnologia mais inclusiva que respeite e acomode diferentes maneiras de se comunicar.

Agradecimentos

Um grande agradecimento a todos que compartilharam suas histórias e experiências. É um lembrete de que todo mundo tem uma voz, e às vezes, a melhor maneira de apoiarmos uns aos outros é ouvir-realmente ouvir-antes de entrar com soluções.

Fonte original

Título: Typical vs. Atypical Disfluency Classification: Introducing the IIITH-TISA Corpus and Temporal Context-Based Feature Representations

Resumo: Speech disfluencies in spontaneous communication can be categorized as either typical or atypical. Typical disfluencies, such as hesitations and repetitions, are natural occurrences in everyday speech, while atypical disfluencies are indicative of pathological disorders like stuttering. Distinguishing between these categories is crucial for improving voice assistants (VAs) for Persons Who Stutter (PWS), who often face premature cutoffs due to misidentification of speech termination. Accurate classification also aids in detecting stuttering early in children, preventing misdiagnosis as language development disfluency. This research introduces the IIITH-TISA dataset, the first Indian English stammer corpus, capturing atypical disfluencies. Additionally, we extend the IIITH-IED dataset with detailed annotations for typical disfluencies. We propose Perceptually Enhanced Zero-Time Windowed Cepstral Coefficients (PE-ZTWCC) combined with Shifted Delta Cepstra (SDC) as input features to a shallow Time Delay Neural Network (TDNN) classifier, capturing both local and wider temporal contexts. Our method achieves an average F1 score of 85.01% for disfluency classification, outperforming traditional features.

Autores: Priyanka Kommagouni, Vamshiraghusimha Narasinga, Purva Barche, Sai Akarsh C, Anil Vuppala

Última atualização: Nov 26, 2024

Idioma: English

Fonte URL: https://arxiv.org/abs/2411.17149

Fonte PDF: https://arxiv.org/pdf/2411.17149

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes