Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Computação e linguagem# Aprendizagem de máquinas# Som# Processamento de Áudio e Fala

Avanços na Tradução de Fala com Troca de Código

Um novo método melhora a tradução de fala em línguas misturadas para o inglês.

― 6 min ler


Avanço na Tradução deAvanço na Tradução deCódigo de Mudançamultilíngue para o inglês.Novo sistema melhora a tradução de fala
Índice

Em muitos lugares ao redor do mundo, como na Índia, o pessoal costuma falar mais de uma língua. Às vezes, eles misturam essas línguas numa só frase; isso é chamado de code-switching. Por exemplo, alguém pode dizer uma frase quase toda em hindi, mas usar algumas palavras em inglês. Essa prática pode deixar bem complicado transformar palavras faladas em texto escrito, principalmente quando se tenta traduzir essas línguas misturadas pro inglês.

Esse artigo foca em traduzir discursos que misturam duas ou mais línguas pro inglês. Criar um programa de computador que faça isso é desafiador porque não tem muitos exemplos desse tipo de discurso pra treinar os programas. Pra resolver esse problema, um novo método foi desenvolvido, que combina sistemas de reconhecimento de voz e de Tradução que já existem. O objetivo é pegar a linguagem code-switching falada e transformar em texto em inglês de forma precisa.

Contexto

A maioria das pessoas no mundo fala várias línguas, o que muitas vezes leva ao code-switching nas conversas. Pesquisas recentes deram uma olhada em como o reconhecimento de voz e a tradução funcionam em línguas misturadas, mas a tradução falada para code-switching não foi muito estudada. Uma razão pra essa falta de pesquisa é que não tem muitos testes disponíveis pra avaliar essas traduções. A maioria dos sistemas atuais foca só numa língua de cada vez, esquecendo das necessidades de quem mistura línguas.

A Nova Solução

Nesse trabalho, uma nova abordagem é apresentada pra traduzir discursos que misturam diferentes línguas. Esse método começa com modelos que já sabem reconhecer fala e traduzir texto. Juntar um sistema de Reconhecimento de Fala e um sistema de tradução não dá muito certo, porque erros no reconhecimento de fala podem piorar a tradução.

Em vez disso, essa nova abordagem usa uma técnica especial onde a fala e o texto são ligados corretamente antes de passar pelo sistema de tradução. Fazendo isso, os erros podem ser minimizados. O processo começa pegando a fala de entrada e produzindo uma versão em texto usando um modelo de reconhecimento de fala. Depois, o texto reconhecido e a fala original são alinhados e misturados. Essa nova representação é enviada pra um modelo de tradução que já foi treinado.

Novos Padrões de Teste

A equipe de pesquisa também criou novos padrões pra testar a tradução de línguas code-switched, especificamente pra Bengali-inglês, Hindi-inglês, Marathi-inglês, e Telugu-inglês. Esses testes são importantes porque não tinha uma estrutura de avaliação disponível pra esses tipos de traduções antes.

Os pesquisadores treinaram seu modelo usando uma quantidade limitada de dados de fala. Eles geraram cerca de 30 horas de dados de tradução sintética criando traduções automaticamente a partir das versões corretas em texto. Depois, testaram seu modelo contra outros sistemas que foram treinados com conjuntos de dados muito maiores. Apesar da quantidade pequena de Dados de Treinamento, o modelo deles mostrou melhores resultados do que muitos outros sistemas.

Treinando com Dados Limitados

Treinar um sistema com pares de fala, texto e tradução é necessário, mas encontrar dados falados suficientes é muitas vezes difícil, especialmente pra línguas menos comuns. Nesse caso, o modelo foi treinado usando um conjunto de dados de fala que incluía exemplos de fala em língua única e fala code-switched. A equipe gerou traduções usando um modelo de tradução forte pra garantir que os dados de treinamento fossem úteis.

Avaliando Code-Switching

Pra avaliar a eficácia do modelo, os pesquisadores analisaram especificamente quão bem o modelo traduzia as partes em inglês encontradas na fala em línguas misturadas. Eles examinaram quantas palavras em inglês nas traduções de referência combinavam com as traduções previstas.

Isso incluiu olhar pra quão bem o modelo conseguia manter as palavras em inglês da fala nas traduções finais. Eles descobriram que o método deles era especialmente bom em manter essas palavras em inglês e que teve um bom desempenho em diferentes quantidades de code-switching durante os testes.

Comparando Diferentes Abordagens

A equipe comparou vários métodos de combinar embeddings de fala e texto. Eles testaram diferentes estratégias pra ver qual funcionava melhor. No final, o método deles de alinhar e entrelaçar a fala e o texto produziu os melhores resultados, mostrando melhorias claras em relação a outros métodos onde as representações foram simplesmente combinadas sem o alinhamento adequado.

Resultados e Descobertas

Durante os testes, os pesquisadores compararam seu novo modelo com sistemas de cascata tradicionais e sistemas modernos de tradução de ponta a ponta. Eles descobriram que a abordagem deles consistentemente superava outras em vários pares de línguas. Os resultados mostraram que o modelo de ponta a ponta era especialmente forte, até superando sistemas mais estabelecidos, mesmo tendo sido treinado com menos dados.

Eles também criaram conjuntos de avaliação que continham exemplos de code-switching mais complexos, como conversas de podcasts. Esses novos dados testaram ainda mais a capacidade do modelo de lidar com situações desafiadoras de linguagem falada.

Conclusão

Esse trabalho introduz uma nova maneira de traduzir fala que inclui várias línguas em texto em inglês. Ao alinhar a fala e seu texto reconhecido antes da tradução, os pesquisadores criaram um sistema que melhora significativamente a precisão da tradução. Eles também forneceram novos padrões de avaliação pra tradução de fala em línguas misturadas, preenchendo uma lacuna no cenário atual de pesquisa.

Apesar de ainda haver desafios-como a necessidade de mais dados de treinamento e possíveis problemas com alta latência durante a tradução-os achados representam um passo importante em direção a uma melhor abordagem das complexidades da comunicação multilíngue. O trabalho futuro vai focar em aprimorar as capacidades do modelo e expandir sua aplicabilidade pra outros pares de línguas e contextos.

Agora, mais pessoas podem potencialmente acessar ferramentas de tradução que consideram a realidade de falar várias línguas no dia a dia. A tarefa contínua é aprimorar ainda mais esses sistemas, garantindo que consigam capturar com precisão a riqueza e a nuance encontradas em conversas multilíngues.

Fonte original

Título: CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving

Resumo: Code-switching is a widely prevalent linguistic phenomenon in multilingual societies like India. Building speech-to-text models for code-switched speech is challenging due to limited availability of datasets. In this work, we focus on the problem of spoken translation (ST) of code-switched speech in Indian languages to English text. We present a new end-to-end model architecture COSTA that scaffolds on pretrained automatic speech recognition (ASR) and machine translation (MT) modules (that are more widely available for many languages). Speech and ASR text representations are fused using an aligned interleaving scheme and are fed further as input to a pretrained MT module; the whole pipeline is then trained end-to-end for spoken translation using synthetically created ST data. We also release a new evaluation benchmark for code-switched Bengali-English, Hindi-English, Marathi-English and Telugu- English speech to English text. COSTA significantly outperforms many competitive cascaded and end-to-end multimodal baselines by up to 3.5 BLEU points.

Autores: Bhavani Shankar, Preethi Jyothi, Pushpak Bhattacharyya

Última atualização: 2024-06-16 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.10993

Fonte PDF: https://arxiv.org/pdf/2406.10993

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes