Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Lançando o Conjunto de Dados de Tradução Inglês-Tulu

Um novo conjunto de dados tem como objetivo melhorar as traduções de inglês para Tulu para idiomas com poucos recursos.

― 7 min ler


Lançamento do Conjunto deLançamento do Conjunto deDados Inglês-Tulutradução para falantes de Tulu.Novo conjunto de dados melhora a
Índice

A gente criou o primeiro conjunto de dados pra traduzir entre inglês e Tulu, uma língua falada por cerca de 2,5 milhões de pessoas no sudoeste da Índia. Tulu faz parte do grupo de Línguas Dravídicas do Sul. Nosso conjunto de dados usa traduções feitas por humanos e incorpora isso em um recurso de Tradução já existente chamado FLORES-200.

A gente usa esse conjunto de dados recém-criado pra avaliar um modelo de tradução automática que traduz do inglês pro Tulu. Pra treinar esse modelo, aproveitamos recursos disponíveis de línguas Dravídicas do Sul relacionadas. Usando um método de aprendizado por transferência, conseguimos usar as semelhanças entre línguas que têm muitos recursos e aquelas que não têm. Esse método é crucial pra construir sistemas de tradução pra línguas como Tulu, que não tem dados suficientes por conta própria.

Nosso sistema de tradução de inglês pra Tulu, mesmo sem dados paralelos diretos, teve um desempenho 19 pontos melhor que o Google Translate quando medido com uma pontuação chamada BLEU em setembro de 2023.

A Importância do Tulu

Tulu não é uma língua oficial na Índia ou em qualquer outro lugar, o que significa que não é usada pra negócios oficiais ou educação. A galera nas áreas que falam Tulu geralmente usa Kannada ou Malayalam. Mas tem uns esforços rolando pra aumentar a visibilidade e o uso do Tulu. Já teve proposta pra criar uma escrita em Tulu em Unicode e petições pra reconhecimento oficial.

Apesar desses desafios, Tulu tem uma presença notável nas redes sociais graças a grupos como Jai Tulunad, que promove a cultura Tulu. Eles também criaram um dicionário online de inglês-Tulu em 2021 e interagem ativamente com a comunidade em várias plataformas de mídia social.

O Desafio das Línguas com Poucos Recursos

Nos últimos dez anos, a tradução automática neural (NMT) cresceu com avanços em tecnologia como Modelos de sequência pra sequência e mecanismos de atenção. Mas muitas línguas, incluindo Tulu, não têm os Conjuntos de dados ricos necessários pra aproveitar essas inovações. Essa escassez cria desafios na hora de desenvolver modelos de tradução confiáveis.

Globalmente, existem mais de 7.000 línguas, e muitas estão em risco de serem esquecidas porque não têm recursos. Tulu tá nessa categoria, enfrentando desafios principalmente por não ser oficialmente reconhecida e por não ser ensinada nas escolas. Em vez disso, usam Kannada ou Malayalam.

Apesar dessas questões, tem uma cena cultural vibrante pra Tulu, incluindo filmes e engajamento nas redes sociais entre os falantes.

O Primeiro Conjunto de Dados de Tulu

Pra criar um recurso útil pro Tulu, a gente queria ter certeza de que ia ter um impacto significativo. Escolhemos expandir o conjunto de dados FLORES-200, que é amplamente reconhecido pra línguas com poucos recursos. Esse conjunto inclui várias frases de diferentes fontes, garantindo diversidade nos dados.

Pra traduzir as frases pro Tulu, trabalhamos com uma organização de voluntários chamada Jai Tulunad, que foca na língua e na cultura Tulu. Eles ajudaram a encontrar falantes nativos de Tulu pra criar as traduções, que são importantes pra comunidade.

Os voluntários, todos falantes nativos de Tulu e fluentes em inglês e Kannada, traduziram as frases enquanto consultavam as duas línguas de origem. Eles também consultaram especialistas pra garantir que as traduções fossem precisas e refletissem a língua Tulu de forma apropriada.

O Processo de Tradução

O processo de tradução enfrentou vários desafios. Embora o Tulu tivesse um vocabulário rico, muitas palavras caíram em desuso e os novos currículos escolares agora favorecem termos em Kannada ou sânscrito. Os tradutores tinham que decidir frequentemente quais palavras usar, já que não existe um Tulu padronizado.

Outro desafio foi o uso da voz passiva, que é incomum em Tulu. Os tradutores optaram por mudar essas frases pra uma voz ativa mais comum. Além disso, diferentes dialetos de Tulu significavam que a consistência era crucial, e todos os tradutores decidiram usar o dialeto de Mangaluru.

Tulu tem fonéticas únicas que não se traduzem facilmente em outros alfabetos, o que apresentou um desafio durante o processo de tradução. Nomes próprios muitas vezes precisavam de transliteração, e nuances culturais tinham que ser cuidadosamente navegadas.

Construindo o Sistema de Tradução Automática

Pra treinar nosso modelo de tradução de inglês pra Tulu, começamos usando um grande conjunto de dados disponível pra tradução de inglês pra Kannada. Esse conjunto inclui milhões de frases de várias fontes, que foram úteis pra estabelecer uma base forte pro modelo.

Pra avaliação, usamos nosso conjunto de dados de inglês-Tulu recém-desenvolvido, que contém 1.300 frases traduzidas por humanos. Dividimos isso em um conjunto de desenvolvimento e um conjunto de teste pra garantir uma avaliação rigorosa.

Como o Tulu não tinha seus próprios conjuntos de dados pré-existentes, criamos um corpus monolingue de Tulu reunindo artigos da Wikipédia em Tulu, resultando em 40.000 frases pra treinamento.

Treinando o Modelo

Nosso processo de treinamento envolveu várias etapas. Primeiro, ajustamos nosso modelo de língua pra traduzir do Kannada pro inglês. Depois disso, traduzimos dados monolingues de Tulu pro inglês antes de passar pra retrotradução, onde o modelo traduziu dados em inglês de volta pra Tulu.

Nas etapas finais, melhoramos o modelo iterativamente reintroduzindo dados das etapas anteriores pra aumentar a qualidade da tradução. Continuamos testando nosso modelo usando várias técnicas de avaliação, focando principalmente na pontuação BLEU.

Por meio desse treinamento sistemático, observamos melhorias no desempenho de tradução. Inicialmente, o modelo Tulu-Inglês alcançou uma pontuação BLEU de 1.84, indicando capacidade limitada. No entanto, ao incorporar recursos da língua Kannada, conseguimos melhorar o desempenho, eventualmente alcançando uma pontuação BLEU de 25.97 pra tradução de Tulu-Inglês.

Resultados e Observações

O desempenho final do modelo indicou que nossa abordagem de aprendizado por transferência teve algum sucesso ao traduzir Tulu pro inglês. Mas a direção inversa, do inglês pro Tulu, teve uma pontuação BLEU menor de 17.27.

Apesar dessas pontuações sugerirem utilidade limitada, certos aspectos das nossas traduções foram eficazes. Por exemplo, as traduções eram claras o suficiente pra não falantes de Tulu entenderem partes das frases. O modelo também conseguiu transliterar nomes próprios com precisão.

Entretanto, à medida que as frases ficavam mais longas, a qualidade da tradução tendia a diminuir. Em algumas situações, o modelo simplesmente transliterava palavras complexas em Tulu sem traduzi-las corretamente.

A gente descobriu que nosso método funcionou bem pra traduzir Tulu pro inglês, mas ainda teve dificuldades ao traduzir do inglês pro Tulu. Refinar ainda mais esse processo poderia levar a melhorias.

Desafios e Direções Futuras

Indo pra frente, a gente planeja implementar melhorias adicionais, incluindo uma melhor compreensão das características únicas do Tulu. Nossa abordagem de tradução automática vai envolver melhorar o pipeline e explorar conjuntos de dados adicionais pra refinar ainda mais nossos modelos.

Apesar de enfrentar desafios durante o processo de tradução, nossa parceria com Jai Tulunad garantiu que nossos esforços estavam alinhados com as necessidades da comunidade. As contribuições e apoio deles foram fundamentais pra estabelecer a base pra trabalhos futuros na tradução da língua Tulu.

Em conclusão, apresentamos um conjunto de dados essencial pra tradução de inglês-Tulu e desenvolvemos um modelo de tradução que mostra potencial. Embora haja espaço pra melhorias, especialmente na tradução inversa, nosso trabalho fornece uma base pra futuros avanços na tradução automática de línguas com poucos recursos.

Fonte original

Título: A Tulu Resource for Machine Translation

Resumo: We present the first parallel dataset for English-Tulu translation. Tulu, classified within the South Dravidian linguistic family branch, is predominantly spoken by approximately 2.5 million individuals in southwestern India. Our dataset is constructed by integrating human translations into the multilingual machine translation resource FLORES-200. Furthermore, we use this dataset for evaluation purposes in developing our English-Tulu machine translation model. For the model's training, we leverage resources available for related South Dravidian languages. We adopt a transfer learning approach that exploits similarities between high-resource and low-resource languages. This method enables the training of a machine translation system even in the absence of parallel data between the source and target language, thereby overcoming a significant obstacle in machine translation development for low-resource languages. Our English-Tulu system, trained without using parallel English-Tulu data, outperforms Google Translate by 19 BLEU points (in September 2023). The dataset and code are available here: https://github.com/manunarayanan/Tulu-NMT.

Autores: Manu Narayanan, Noëmi Aepli

Última atualização: 2024-03-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2403.19142

Fonte PDF: https://arxiv.org/pdf/2403.19142

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes