Revitalizando Línguas Ameaçadas Através da Tradução
Esforços pra salvar línguas em perigo usando tradução e envolvimento da comunidade.
― 7 min ler
Índice
As línguas são essenciais pra comunicação, mas muitas delas correm o risco de desaparecer. Quando uma língua morre, significa que ninguém fala mais ela. Uma língua em perigo é aquela que ainda tem falantes, mas não tem crianças suficientes aprendendo. Mais da metade das línguas do mundo pode desaparecer nos próximos 80 anos. Algumas línguas sobrevivem quando ganham importância, enquanto outras, mesmo com vários falantes, podem estar em risco.
Um exemplo é o frisão, que tem dificuldade pra ganhar respeito na Alemanha, tornando-se uma língua em perigo. Já o hebraico foi ressuscitado como língua falada porque é importante pra comunidade judaica. Ajudar comunidades de línguas ameaçadas é fundamental. Isso pode acontecer traduzindo textos importantes pra essas línguas, dando conhecimento e poder a elas. Uma área chave é traduzir textos sobre água, saneamento e higiene (WASH), especialmente ressaltada durante a pandemia de COVID-19.
O Desafio da Tradução
Em muitas situações, traduzir pra línguas com poucos recursos não precisa de um sistema de tradução amplo, mas exige um processo de tradução especializado pra textos específicos. Esses textos podem incluir registros de saúde, comunicações do governo, procedimentos de emergência e textos religiosos. Enquanto os sistemas de tradução geral pra todas as línguas são limitados, ainda pode ser possível traduzir textos conhecidos pra línguas ameaçadas com esforço mínimo dos tradutores humanos.
Os pesquisadores querem usar recursos de línguas com mais falantes pra ajudar a produzir traduções de qualidade alta pra textos importantes em línguas ameaçadas. Essa pesquisa explora dois métodos principais: primeiro, selecionar as melhores frases iniciais pra começar traduções numa nova língua, e segundo, ajustar grandes sistemas de tradução geral focados em textos específicos numa nova língua.
Escolhendo as melhores frases, os pesquisadores buscam produzir traduções melhores enquanto reduzem a necessidade de input humano extensivo. Eles descobriram que esse método poderia melhorar significativamente a Qualidade da Tradução, mesmo quando só um número limitado de frases iniciais está disponível. Isso é crítico pra línguas ameaçadas que carecem de dados extensos.
O Papel das Frases Iniciais
Uma língua está em risco quando não tem falantes ativos, e traduzir textos pra essas línguas é a chave pra revivê-las. O desafio tá em criar traduções de alta qualidade, dado os recursos limitados disponíveis. Métodos tradicionais costumam depender de frases iniciais de tradutores humanos, mas a quantidade de dados disponíveis é frequentemente bem pequena-às vezes só algumas centenas de frases.
No passado, pesquisadores mostraram que amostragem aleatória pode ser mais eficaz do que simplesmente selecionar uma parte fixa do texto pra construir um corpus inicial. Essa pesquisa vai focar em melhorar a qualidade da tradução usando métodos de Aprendizado Ativo. Esses métodos vão ajudar a criar melhores corpora iniciais, reduzindo a necessidade de esforço humano enquanto oferecem traduções valiosas pra línguas ameaçadas.
Abordagens de Aprendizado Ativo
Aprendizado ativo envolve selecionar um subconjunto de dados que vai trazer mais benefícios pro aprendizado. No contexto da tradução pra línguas ameaçadas, tradutores humanos podem usar classificações geradas por máquinas pra construir um corpus inicial. Essa abordagem permite que máquinas criem um rascunho inicial da tradução, que tradutores humanos podem depois refinar.
Esse processo não só acelera a tradução, mas também melhora a precisão do resultado. Em cada ciclo de tradução, as máquinas aprendem com os novos dados cada vez que os humanos dão feedback. Esse ciclo de feedback melhora a qualidade geral das traduções.
Geralmente, métodos tradicionais de aprendizado ativo precisam de muitos dados. Porém, no caso de línguas ameaçadas, essa suposição precisa ser reavaliada. Pesquisadores focam em construir corpora iniciais classificando todas as frases de traduções existentes de outras línguas sem precisar de dados da língua ameaçada em si.
Classificação e Agregação de Frases
Pra criar um sistema de classificação, os pesquisadores constroem modelos baseados em línguas conhecidas. Essa classificação ajuda a garantir que nenhuma língua única domine e permite uma melhor seleção de frases a serem traduzidas. Diversos métodos exploram a classificação de frases usando diferentes mecanismos de votação pra escolher o conjunto de línguas de referência pra agregação.
Usando essa seleção classificada, tradutores humanos pegam as melhores frases e as traduzem, construindo o corpus inicial necessário pra língua ameaçada. O objetivo é criar um corpus inicial com um pequeno número de frases de alta qualidade, que pode depois ser usado pra treinar modelos de tradução de forma eficaz.
Pré-treinamento e Aprendizado por Transferência
Pra treinar modelos em pequenos corpora iniciais, o pré-treinamento se torna um passo vital. Pesquisadores podem criar seus próprios modelos pré-treinados usando línguas conhecidas ou aproveitar modelos pré-treinados existentes. Explorar ambos os métodos leva a um desempenho melhor em tarefas de tradução pra línguas ameaçadas.
Esses modelos pré-treinados ajudam a captar conhecimento de conjuntos de dados maiores, melhorando traduções mesmo quando os dados são limitados. A pesquisa demonstra que usar um modelo pré-treinado na área de interesse, seguido de adaptação à língua ameaçada, gera os melhores resultados.
Avaliação da Qualidade da Tradução
Pra avaliar a qualidade das traduções, os pesquisadores usam várias métricas, incluindo pontuações chrF, BLEU e COMET. Essas métricas ajudam a quantificar o desempenho dos sistemas de tradução e oferecem insights sobre sua eficácia. O foco é escolher as melhores traduções possíveis enquanto melhora a fluência e a precisão.
Comparando resultados de diferentes cronogramas de treinamento e métodos de tradução, os pesquisadores descobrem que seus modelos alcançam melhorias significativas em relação aos padrões existentes. O esforço colaborativo entre rascunhos gerados por máquinas e tradutores humanos leva a traduções mais precisas e incentiva a recuperação de línguas ameaçadas.
A Importância do Envolvimento da Comunidade
Reviver línguas ameaçadas não é só um desafio técnico. Exige envolvimento ativo e comunicação com as comunidades locais. Construir relacionamentos com essas comunidades é essencial pra garantir que os esforços de revitalização linguística sejam respeitosos e eficientes.
Projetos colaborativos podem criar um senso de propriedade e engajamento dentro dessas comunidades. Oferecer ferramentas de tradução é só uma parte do esforço; manter uma conexão com os falantes de línguas ameaçadas é necessário pra um sucesso a longo prazo.
Direções Futuras
A pesquisa ressalta a necessidade de esforços sustentáveis na tradução de textos pra línguas ameaçadas. Explorar métodos inovadores em aprendizado ativo e aproveitar grandes modelos multilíngues pode aprimorar o processo. Porém, a contínua ênfase no envolvimento e colaboração com a comunidade é vital.
Mais trabalho é necessário pra refinar mecanismos de tradução e abordar desafios relacionados à coerência local e contexto. Encontrar falantes nativos pra avaliação e fomentar parcerias de longo prazo com as comunidades vai aumentar a eficácia desses esforços de tradução.
Conclusão
Traduzir pra línguas ameaçadas é uma tarefa complexa que exige uma combinação de tecnologia, envolvimento da comunidade e metodologias focadas. Usando processos de tradução especializados, frases iniciais, estratégias de aprendizado ativo e engajando-se com comunidades locais, é possível criar caminhos pra revitalizar línguas em risco de desaparecer.
Através desse esforço conjunto, comunidades de línguas ameaçadas podem ter acesso a informações vitais, conhecimento e patrimônio cultural, garantindo que suas línguas continuem a prosperar pras futuras gerações.
Título: Train Global, Tailor Local: Minimalist Multilingual Translation into Endangered Languages
Resumo: In many humanitarian scenarios, translation into severely low resource languages often does not require a universal translation engine, but a dedicated text-specific translation engine. For example, healthcare records, hygienic procedures, government communication, emergency procedures and religious texts are all limited texts. While generic translation engines for all languages do not exist, translation of multilingually known limited texts into new, endangered languages may be possible and reduce human translation effort. We attempt to leverage translation resources from many rich resource languages to efficiently produce best possible translation quality for a well known text, which is available in multiple languages, in a new, severely low resource language. We examine two approaches: 1. best selection of seed sentences to jump start translations in a new language in view of best generalization to the remainder of a larger targeted text(s), and 2. we adapt large general multilingual translation engines from many other languages to focus on a specific text in a new, unknown language. We find that adapting large pretrained multilingual models to the domain/text first and then to the severely low resource language works best. If we also select a best set of seed sentences, we can improve average chrF performance on new test languages from a baseline of 21.9 to 50.7, while reducing the number of seed sentences to only around 1,000 in the new, unknown language.
Autores: Zhong Zhou, Jan Niehues, Alex Waibel
Última atualização: 2023-05-05 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.03873
Fonte PDF: https://arxiv.org/pdf/2305.03873
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.