Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Melhorando a Leitura Labial com Treinamento de Visemas

Um novo método melhora a precisão da leitura labial usando visemas no reconhecimento de fala.

― 6 min ler


Tecnologia de LeituraTecnologia de LeituraLabial de Outro Nívelperformance na leitura labial.Método avançado melhora muito a
Índice

Ler lábios é a habilidade de entender palavras faladas observando os movimentos dos lábios de quem fala. Essa habilidade é bem útil em várias áreas, como melhorar sistemas de reconhecimento de fala, ajudar pessoas com dificuldades auditivas e fortalecer sistemas de segurança. Apesar de ser importante, as tecnologias atuais de leitura labial costumam ter dificuldade com precisão, principalmente por causa das limitações nos recursos de vídeo usados nesses sistemas.

O Papel dos Visemas

Na leitura labial, os visemas têm um papel crucial. Visemas são formas específicas dos lábios que correspondem a grupos de sons parecidos. Por exemplo, as palavras "back" e "pack" parecem iguais quando faladas, mesmo soando diferentes. Isso cria desafios para a leitura labial, porque sons diferentes podem parecer idênticos no vídeo.

Dois Níveis de Leitura Labial

A leitura labial pode ser analisada em dois níveis: nível de palavra e Nível de Frase.

Leitura Labial no Nível de Palavra

No nível de palavra, a tarefa é identificar uma palavra falada a partir de clipes de vídeo curtos. Cada clipe de vídeo corresponde a uma palavra específica. Se um clipe mostra movimentos labiais que se assemelham a várias palavras, o sistema pode adivinhar a mais frequente, o que pode dar errado.

Leitura Labial no Nível de Frase

No nível de frase, o sistema processa sequências mais longas de palavras. Aqui, modelos de linguagem podem ajudar a determinar qual palavra se encaixa melhor no contexto da frase, mesmo quando palavras diferentes compartilham formas labiais semelhantes.

Reconhecimento de Fala Audiovisual

O reconhecimento de fala audiovisual combina entradas de vídeo e áudio para melhorar a compreensão das palavras faladas. Por exemplo, um modelo avançado, o AV-HuBERT, aprende a reconhecer palavras faladas em um nível de caractere usando som e vídeo. O AV-HuBERT é treinado inicialmente com grandes quantidades de dados brutos e depois ajustado para tarefas específicas.

Método Proposto

Neste estudo, propomos um método que melhora a leitura labial focando nos visemas. Ao treinar um modelo usando visemas em vez de apenas palavras faladas, esperamos alcançar resultados melhores. Esse processo de treinamento envolve converter dados de vídeo em sequências de visemas antes que o modelo identifique as palavras faladas correspondentes.

Desafios na Leitura Labial

O principal desafio na leitura labial está na transferência de dados de vídeo para visemas, o que requer dados de vídeo rotulados. Planejamos usar uma abordagem semi-automática para obter sequências de fonemas de vídeos, que depois converteremos em sequências de visemas. O objetivo é treinar o modelo de uma forma que melhore sua capacidade de reconhecer palavras com base nos movimentos labiais.

Experimento e Resultados

Testamos nosso método em um conjunto de dados contendo fala persa. A avaliação incluiu tarefas tanto em nível de palavra quanto em nível de frase. Para as tarefas em nível de palavra, a precisão foi a principal métrica. Isso mede quantas previsões corretas foram feitas. Também analisamos outras medidas de precisão, como a precisão top-k, que verifica se a resposta correta está entre as melhores palpites feitos pelo modelo.

Nos testes em nível de frase, usamos duas taxas de erro diferentes: Taxa de Erro de Caractere (CER) e Taxa de Erro de Palavra (WER). Essas taxas ajudam a entender com que frequência o modelo identifica erroneamente caracteres ou palavras em comparação com as respostas esperadas.

Conjuntos de Dados Usados

Para treinar e avaliar nossos modelos, usamos vários conjuntos de dados:

  • LRS2: Um grande conjunto de dados com fala natural coletada de programas da BBC.
  • Arman-AV: Um conjunto de dados persa com muitas horas de fala de vários falantes.
  • Common Voice: Um conjunto de dados apenas de áudio que contém uma variedade de idiomas.

Reconhecimento Visual de Fala em Nível de Palavra

Reconhecer palavras através da leitura labial pode ser desafiador, especialmente sem o contexto das palavras ao redor. Nossos testes mostram que o modelo treinado com nosso método proposto alcança uma precisão maior do que modelos de base. Isso sugere que nossa abordagem captura bem as características necessárias do vídeo.

Reconhecimento Visual de Fala em Nível de Frase

Nas tarefas de leitura labial em nível de frase, fornecemos uma sequência de quadros mostrando os lábios de um falante para nosso modelo. O processo de treinamento teve o objetivo de obter melhores características visuais que melhorem a tarefa de leitura labial. Nossos resultados indicam que ajustar o modelo com visemas melhora seu desempenho, especialmente em situações onde palavras diferentes têm formas labiais semelhantes.

Reconhecimento de Fala Audiovisual

Esta parte da pesquisa foca em reconhecer fala usando características auditivas e visuais ao mesmo tempo. Comparamos nosso método com outros modelos para ver qual ofereceu melhores resultados. Notavelmente, nossa abordagem superou consistentemente outros modelos em termos de taxas de erro.

Comparando Modelos

Para analisar a eficácia do nosso método em comparação aos outros, examinamos as características extraídas de ambos os modelos. Isso envolveu mapear dados em nível de fonema para um espaço bidimensional mais simples para uma melhor comparação. Nosso método proposto mostrou melhor agrupamento de fonemas, significando que pode agrupar movimentos labiais semelhantes de forma eficiente. Isso leva a um processo de reconhecimento mais refinado.

Conclusão

Ler lábios é uma tarefa complexa que continua a ser um tema de grande interesse devido à sua ampla gama de aplicações. Este estudo apresentou um método para melhorar a leitura labial usando visemas para treinamento, o que levou a um desempenho melhor em várias tarefas. Nossos experimentos demonstraram que essa abordagem supera métodos existentes, confirmando seu potencial de utilidade para futuros desenvolvimentos na área. Para frente, planejamos expandir essa abordagem para funcionar em diferentes idiomas, aumentando ainda mais sua aplicabilidade e eficácia.

Fonte original

Título: Leveraging Visemes for Better Visual Speech Representation and Lip Reading

Resumo: Lip reading is a challenging task that has many potential applications in speech recognition, human-computer interaction, and security systems. However, existing lip reading systems often suffer from low accuracy due to the limitations of video features. In this paper, we propose a novel approach that leverages visemes, which are groups of phonetically similar lip shapes, to extract more discriminative and robust video features for lip reading. We evaluate our approach on various tasks, including word-level and sentence-level lip reading, and audiovisual speech recognition using the Arman-AV dataset, a largescale Persian corpus. Our experimental results show that our viseme based approach consistently outperforms the state-of-theart methods in all these tasks. The proposed method reduces the lip-reading word error rate (WER) by 9.1% relative to the best previous method.

Autores: Javad Peymanfard, Vahid Saeedi, Mohammad Reza Mohammadi, Hossein Zeinali, Nasser Mozayani

Última atualização: 2023-07-19 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.10157

Fonte PDF: https://arxiv.org/pdf/2307.10157

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes