Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avançando a Tecnologia de Fala para Línguas Africanas

O novo conjunto de dados AfroDigits tem como objetivo melhorar o reconhecimento de fala em línguas africanas.

― 7 min ler


Empoderando as LínguasEmpoderando as LínguasAfricanas na Tecnologiafala para idiomas africanos.AfroDigits melhora o reconhecimento de
Índice

O crescimento da tecnologia de fala tem sido impressionante, mas ainda tem desafios quando se trata de incluir Línguas africanas. A falta de dados de Áudio nessas línguas levou a um suporte limitado em ferramentas de Reconhecimento de Fala. Para resolver esse problema, foi criado o AfroDigits. É um conjunto de dados feito de dígitos falados em 38 línguas africanas. Esse conjunto de dados visa ajudar no desenvolvimento de aplicativos de fala, como reconhecer números de telefone falados.

Conjuntos de dados têm um papel crucial na melhoria de modelos de aprendizado profundo usados em processamento de linguagem natural (PLN). Um exemplo famoso é o ImageNet, que mostrou como redes neurais profundas podem ser eficazes para reconhecimento de imagem. Quanto mais conjuntos de dados disponíveis para uma tarefa específica, melhor o modelo pode se tornar. No campo do processamento de fala, modelos de aprendizado profundo de ponta a ponta avançaram o reconhecimento automático de fala (ASR) e a síntese de fala (TTS). No entanto, devido à falta de dados, muitas tecnologias existentes não suportam línguas africanas.

Quando línguas africanas não são incluídas nas tecnologias de fala, isso corre o risco de ofuscar as identidades e culturas daqueles que as falam. O projeto AfroDigits visa preencher essa lacuna criando um conjunto de dados de dígitos falados que atenda todas as línguas africanas. Esse esforço usa uma abordagem comunitária, incentivando a participação local na construção do conjunto de dados.

A estrutura deste artigo seguirá a motivação por trás do AfroDigits, uma visão geral dos esforços de coleta de dados, os detalhes do projeto e a descrição do conjunto de dados. Por fim, abordará os experimentos realizados com o conjunto de dados e discutirá os resultados.

Esforços Relacionados em Corpora de Fala

Houve várias tentativas de criar conjuntos de dados de fala para diferentes tarefas de processamento. Alguns conjuntos de dados proeminentes, como LibriSpeech e TIMIT, fizeram contribuições significativas. No entanto, esses conjuntos de dados não suportam línguas africanas. Recentemente, conjuntos de dados multilíngues como Vox-Forge e Common Voice da Mozilla surgiram, mas o número de línguas africanas representadas ainda é baixo. O Common Voice, por exemplo, inclui apenas Kinyarwanda com mais de 1000 horas de áudio.

Embora alguns projetos tenham tentado preencher essa lacuna, a maioria se concentrou em corpora de texto-fala em vez de dígitos. O conjunto de dados FSDD, semelhante em uso ao AfroDigits, é principalmente em inglês. O AfroDigits visa contribuir para a comunidade ao focar na gravação de dígitos em línguas africanas.

O Projeto AfroDigits

O AfroDigits foi projetado como uma ferramenta orientada pela comunidade para coletar dados de áudio de dígitos. A escolha de dígitos falados foi intencional, visando criar um conjunto de dados simples que pudesse ser benéfico para tarefas de processamento de fala. Esse conjunto de dados pode servir a propósitos educacionais, como ajudar pesquisadores e profissionais a aprender sobre processamento de fala em suas línguas nativas.

Um fator importante para o sucesso do projeto é a facilidade de participação. A equipe criou uma plataforma online que não requer habilidades técnicas para gravar dígitos. Um ambiente de gravação divertido foi estabelecido, onde os participantes viam imagens de números e depois os recitavam. Depois de gravar todos os números de 0 a 9, os participantes recebiam uma mensagem de parabéns, incentivando-os a continuar gravando.

Para promover a participação, foi lançado uma iniciativa chamada African Digits Recording Sprint, que durou um mês. Através de anúncios e engajamento com comunidades, falantes nativos foram incentivados a participar. Para coletar informações adicionais, campos opcionais foram fornecidos para os participantes compartilharem sua idade, gênero, sotaque e país de residência, garantindo que nenhuma informação pessoal, como nomes ou endereços, fosse coletada.

O Conjunto de Dados

Atualmente, o AfroDigits inclui 2.185 amostras de áudio em 38 línguas africanas. O conjunto de dados está disponível para download, mas exige que os usuários forneçam alguns detalhes antes de acessá-lo. O conjunto de dados é organizado em diretórios, cada um contendo arquivos de áudio juntamente com metadados que incluem IDs de áudio, nomes de línguas e informações dos participantes.

Em termos de participação, a língua Oshiwambo recebeu o maior número de gravações, totalizando 1.721. O conjunto de dados é estruturado de uma forma que permite que os pesquisadores o integrem diretamente em seus processos de treinamento, facilitando o uso em várias aplicações.

Configuração Experimental

Para mostrar a usabilidade do AfroDigits, experimentos foram realizados com modelos de fala pré-treinados. O foco foi em seis línguas africanas: Igbo, Yoruba, Rundi, Oshiwambo, Shona e Oromo. Cada modelo usado nos experimentos tinha diferentes antecedentes de pré-treinamento.

Modelos de fala pré-treinados são modelos de rede neural treinados em extensos conjuntos de dados de áudio. Eles aprendem características distintas do som, que podem ser aplicadas a várias tarefas. Nesta pesquisa, dois modelos poderosos foram usados: Wav2Vec2.0-Large e XLS-R.

O modelo Wav2Vec2.0-Large foi pré-treinado usando dados de áudio de um conjunto de dados apenas em inglês. Em contraste, o modelo XLS-R utilizou um conjunto de dados que incluía áudio de 128 línguas diferentes, incluindo várias línguas africanas. Esse histórico levou à crença de que o XLS-R se sairia melhor ao reconhecer dígitos falados em línguas africanas.

Para lidar com o desafio do desbalanceamento de classes, uma técnica de amostragem ponderada foi empregada. Isso garantiu que línguas com menos amostras ainda estivessem adequadamente representadas durante o treinamento, evitando que o modelo favorecesse línguas com mais dados.

Resultados e Discussão

Após os experimentos, os resultados foram analisados com base no desempenho dos modelos em cada língua. O modelo XLS-R geralmente teve um desempenho melhor no geral. Além disso, misturar dados de treinamento de diferentes línguas melhorou os resultados, especialmente para línguas que normalmente lutavam com o reconhecimento.

No entanto, apesar desses avanços, certas línguas ainda mostraram níveis de desempenho baixos, reforçando a necessidade de mais conjuntos de dados para melhorar o reconhecimento geral. O aspecto positivo dos resultados destacou como usar uma abordagem multilíngue durante o treinamento melhorou os resultados para línguas de baixo recurso.

Limitações do AfroDigits

Embora o AfroDigits ofereça uma contribuição significativa para os conjuntos de dados disponíveis para línguas africanas, o tamanho inicial do conjunto de dados é uma preocupação. Algumas línguas têm muito poucas amostras, o que limita sua eficácia em treinar modelos. O projeto está em andamento, com planos de expandir o conjunto de dados à medida que mais gravações forem coletadas.

O AfroDigits se destaca como um esforço pioneiro na criação de um conjunto de dados minimalista e orientado pela comunidade de dígitos falados em línguas africanas. Ele visa preencher a lacuna nos conjuntos de dados de fala existentes, permitindo aplicações mais amplas e inclusivas na tecnologia de fala. A esperança é que, à medida que mais pessoas se envolvam com a plataforma, o conjunto de dados continue a crescer, oferecendo ainda mais recursos para pesquisa, educação e aplicações práticas em línguas africanas.

Fonte original

Título: AfroDigits: A Community-Driven Spoken Digit Dataset for African Languages

Resumo: The advancement of speech technologies has been remarkable, yet its integration with African languages remains limited due to the scarcity of African speech corpora. To address this issue, we present AfroDigits, a minimalist, community-driven dataset of spoken digits for African languages, currently covering 38 African languages. As a demonstration of the practical applications of AfroDigits, we conduct audio digit classification experiments on six African languages [Igbo (ibo), Yoruba (yor), Rundi (run), Oshiwambo (kua), Shona (sna), and Oromo (gax)] using the Wav2Vec2.0-Large and XLS-R models. Our experiments reveal a useful insight on the effect of mixing African speech corpora during finetuning. AfroDigits is the first published audio digit dataset for African languages and we believe it will, among other things, pave the way for Afro-centric speech applications such as the recognition of telephone numbers, and street numbers. We release the dataset and platform publicly at https://huggingface.co/datasets/chrisjay/crowd-speech-africa and https://huggingface.co/spaces/chrisjay/afro-speech respectively.

Autores: Chris Chinenye Emezue, Sanchit Gandhi, Lewis Tunstall, Abubakar Abid, Josh Meyer, Quentin Lhoest, Pete Allen, Patrick Von Platen, Douwe Kiela, Yacine Jernite, Julien Chaumond, Merve Noyan, Omar Sanseviero

Última atualização: 2023-04-03 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2303.12582

Fonte PDF: https://arxiv.org/pdf/2303.12582

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes