Enfrentando Desafios de Dialeto na Tradução Automática Neural
Novo marco revela dificuldades de tradução entre vários dialetos.
― 7 min ler
Os sistemas de Tradução Automática (NMT) têm dificuldade quando enfrentam mudanças na linguagem. Esses sistemas se saem mal quando encontram até pequenas mudanças na forma como uma língua é usada, como diferenças entre falantes não nativos ou mudanças em domínios de linguagem. Esse problema se estende a Dialetos, mas pouco foi feito para testar quão bem esses sistemas conseguem traduzir as diferenças dialetais. Para resolver isso, criamos um novo benchmark que inclui 891 variações de doze idiomas, permitindo um melhor teste dos sistemas NMT contra esses dialetos. Também mostramos as dificuldades que grandes modelos NMT enfrentam ao traduzir dialetos. Todos os dados e códigos coletados estão disponíveis publicamente.
Durante a década de 2010, houve um progresso rápido em processamento de linguagem natural (NLP) e tecnologias relacionadas. No entanto, a maioria desses avanços se concentra em algumas línguas amplamente utilizadas, ignorando muitas variações que existem dentro delas em diferentes áreas e grupos sociais. É fundamental entender essas diferenças para avaliar quão bem os sistemas atuais conseguem lidar com entradas mais diversas.
As línguas podem diferir de várias maneiras. Neste estudo, focamos principalmente nas variações na linguagem escrita e na gramática, que podem ser avaliadas por meio de tarefas como tradução automática. Enquanto não exploramos as diferenças de pronúncia, reconhecemos sua importância para pesquisas futuras.
Um exemplo chave dos desafios de tradução enfrentados pelos sistemas NMT envolve o italiano. Um sistema de tradução popular pode traduzir corretamente o italiano padrão, mas falha ao traduzir o dialeto de Alassio. Esses exemplos destacam as lacunas no Desempenho da tradução.
Para medir efetivamente esses desafios de tradução, precisamos de exemplos Contrastivos onde duas frases dialetais compartilham o mesmo significado. Nosso trabalho visa preencher esse vazio.
Contribuições
Nosso trabalho contribui em várias áreas-chave:
- Coletamos dados contrastivos de estudos anteriores sobre dialetos em três línguas: Italiano (439 variedades), Basco (39 variedades) e Alemão Suíço (368 variedades).
- Reaproveitamos dados contrastivos de várias fontes para sete idiomas adicionais: Árabe (25 dialetos), Occitano (2 variedades), Tigrínia (2 variedades), Farsi (2 variedades), Malaio-Indonésio (2 variedades), Suaíli (2 variedades) e Grego (1 variedade).
- Geramos novos dados contrastivos para Bengali (5 dialetos) e Curdo Central (4 dialetos).
- Benchmarkamos esses dialetos usando modelos de tradução automática avançados, destacando as diferenças de desempenho.
Trabalho Relacionado
A tradução automática é uma área central dentro de NLP, com muitos estudos passados visando aprimorar a eficiência por meio de recentes avanços em vários tipos de modelos. No entanto, ainda há uma grande lacuna no desenvolvimento de modelos eficazes que consigam traduzir dialetos e variedades diversas.
Muitas pesquisas sobre essa questão se concentraram em dialetos árabes, alemães suíços, curdos, portugueses e franceses. Um desafio chave é reunir dados de tradução suficientes e criar conjuntos de dados adequados. Esforços passados explorando a tradução para dialetos menos representados receberam alguma atenção, mas muitas áreas ainda precisam ser desenvolvidas.
Dada a falta de benchmarks para avaliar a tradução entre dialetos, nossa pesquisa serve para fornecer um, visando mensurar o desempenho dos modelos de tradução automática nessas diferenças dialetais.
O Benchmark
Para nosso benchmark, comparamos sentenças de uma variante de linguagem padrão com aquelas de uma variante dialetal, chamando-as de contrastivas. Esse método de contraste, amplamente utilizado em estudos de dialetos, enfatiza as diferenças em vez das semelhanças.
Como essa área de pesquisa é relativamente nova, usamos três estratégias principais para construir nossos conjuntos de dados:
- Reaproveitamos dados existentes de estudos de dialetos para Basco, Italiano, Alemão Suíço e Occitano Central.
- Realizamos traduções manuais feitas por falantes nativos para Bengali, Grego Moderno e Curdo Central.
- Coletamos dados existentes para Árabe, Farsi, Malaio-Indonésio, Tigrínia e Suaíli.
Utilizando Conjuntos de Dados Existentes
Alguns trabalhos já forneceram exemplos contrastivos para algumas variedades de idiomas. Parte disso foi criada para estudos de dialetos anteriores, enquanto outros vêm de diferentes iniciativas de tradução.
Coleta de Atlas Sintáticos
Pesquisadores tradicionalmente coletaram dados dialetais por meio de questionários projetados para capturar como uma frase seria expressa em cada dialeto. Esse método permite a coleta rica de dados e análises comparativas. Embora a maioria das línguas tenha recebido atenção limitada, alguns esforços notáveis foram feitos, especialmente dentro das línguas europeias.
Criação de Novos Dados
Para várias línguas, incluindo Curdo Central, Bengali e Occitano, não conseguimos encontrar dados contrastivos existentes, então criamos pequenos benchmarks de avaliação por meio de coleta de dados online e divulgação.
Línguas Incluídas
As línguas incluídas em nosso benchmark são:
- Variedades de Basco: Os dados são retirados do Banco Sintático Basco, cobrindo 39 variantes.
- Variedades de Italiano: Obtidas do Atlas Sintático Italiano, representando 439 dialetos em toda a Itália.
- Variedades de Alemão Suíço: Dados coletados do Atlas Sintático da Suíça Alemã, apresentando 368 variantes.
- Vernáculas Árabes: Usando dados do corpus MADAR, com variedades de 25 cidades.
- Tigrínia: Dados coletados do conjunto de dados TICO-19, comparando variedades Eritreia e Etíope.
- Farsi e Dari: Usando o conjunto de dados TICO-19 para traduções.
- Malaio e Indonésio: Dados obtidos do conjunto de dados TICO-19, comparando as duas línguas intimamente relacionadas.
- Suaíli: Tanto variedades costeiras quanto congolezas do conjunto de dados TICO-19.
- Variedades de Bengali: Os dados incluem cinco dialetos de diferentes regiões de Bangladesh.
- Variedades de Curdo Central: Focado em dialetos de regiões do Irã e Iraque.
Avaliando Sem Referências
Para avaliar os sistemas de tradução automática entre dialetos, podemos comparar as saídas com uma tradução padrão. Mesmo sem traduções referenciadas feitas por humanos, ainda podemos analisar a robustez desses sistemas.
Notas Importantes de Implementação
Na nossa análise, medimos o desempenho usando duas métricas: BLEU e COMET. O BLEU avalia traduções com base em correspondências de n-gramas, enquanto o COMET fornece uma compreensão mais sutil, utilizando um modelo de linguagem multilíngue. Esses métodos nos dão uma maneira quantificável de ver quão bem os sistemas lidam com dialetos em comparação com traduções padrão.
Resultados e Análise
Nós benchmarkamos sistemas de tradução automática avaliando dialetos em várias línguas, com especial atenção ao inglês como língua-alvo. Nossos resultados são baseados em quatro modelos de tamanhos diferentes capazes de traduzir entre 200 línguas.
Análise Quantitativa
Os resultados quantitativos mostraram diferenças distintas de desempenho entre as variedades de idiomas. As variantes de Tigrínia exibiram pontuações diferentes, destacando os desafios enfrentados na tradução de dialetos. Outras línguas, incluindo Farsi e Dari, tiveram um desempenho semelhante, sugerindo que os modelos podem suportar dialetos com dados de treinamento suficientes.
Análise Qualitativa
Um fator vital que afeta os sistemas de tradução automática é a diversidade no vocabulário e gramática entre dialetos. O processo de padronização de muitas línguas frequentemente leva ao descaso das variações regionais, tornando mais difícil para os sistemas de tradução terem um bom desempenho com dialetos não padronizados.
Trabalho Futuro
Esse trabalho revela a falta de suporte para vários dialetos de língua em sistemas de tradução automática. Alguns dialetos se saem melhor, enquanto outros enfrentam dificuldades, enfatizando a necessidade de mais pesquisas nessa área. O desenvolvimento de mais conjuntos de dados de treinamento para dialetos deve ser uma prioridade, permitindo um melhor desempenho da tradução automática.
Conclusão
Este estudo destaca as lacunas na qualidade da tradução entre dialetos. Enquanto alguns dialetos apresentam pontuações impressionantes, muitos permanecem sub-representados. Abordar essas disparidades é crucial para garantir acesso equitativo à tradução de idiomas, destacando a importância de desenvolver modelos melhores para variações dialetais.
Título: CODET: A Benchmark for Contrastive Dialectal Evaluation of Machine Translation
Resumo: Neural machine translation (NMT) systems exhibit limited robustness in handling source-side linguistic variations. Their performance tends to degrade when faced with even slight deviations in language usage, such as different domains or variations introduced by second-language speakers. It is intuitive to extend this observation to encompass dialectal variations as well, but the work allowing the community to evaluate MT systems on this dimension is limited. To alleviate this issue, we compile and release CODET, a contrastive dialectal benchmark encompassing 891 different variations from twelve different languages. We also quantitatively demonstrate the challenges large MT models face in effectively translating dialectal variants. All the data and code have been released.
Autores: Md Mahfuz Ibn Alam, Sina Ahmadi, Antonios Anastasopoulos
Última atualização: 2024-02-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.17267
Fonte PDF: https://arxiv.org/pdf/2305.17267
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://ixa2.si.ehu.eus/atlas2/index.php
- https://svrims2.dei.unipd.it:8080/asit-maldura/pages/search.jsp
- https://dialektsyntax.linguistik.uzh.ch
- https://web.gencat.cat/en/actualitat/darreres-noticies/index.html
- https://ctan.org/pkg/pifont
- https://github.com/mahfuzibnalam/dialect_mt
- https://github.com/facebookresearch/LASER
- https://github.com/openpolis/geojson-italy