Avanços na Generalização Composicional Multilíngue
Novo conjunto de dados melhora a compreensão dos modelos de linguagem em várias línguas.
― 8 min ler
A Generalização Composicional é uma habilidade importante para modelos de linguagem. Isso permite que eles entendam e combinem diferentes partes da linguagem de maneiras novas. Muitos estudos analisaram quão bem os modelos de linguagem conseguem executar essa tarefa em inglês. Porém, tem muitas outras línguas que não foram tão estudadas. Isso levanta algumas questões chave. Esses modelos lidam com a generalização composicional de forma diferente em várias línguas? Eles conseguem funcionar bem entre as línguas?
Para encontrar respostas para essas perguntas, pesquisas recentes traduziram Conjuntos de dados para avaliar quão bem os modelos conseguem fazer generalização composicional em parsing semântico, que é a tarefa de transformar a linguagem natural em um formato que um computador consegue entender. No entanto, descobrimos que traduzir esses conjuntos de dados pode muitas vezes mudar seus significados de maneiras importantes. Para melhorar isso, criamos um novo método para traduzir um conjunto de dados do inglês para o chinês e japonês sem perder seu significado.
Apesar dos nossos esforços para criar um benchmark confiável, nossos testes mostraram que a forma como a linguagem é estruturada ainda cria desafios para os modelos que tentam generalizar entre línguas. Nosso conjunto de dados e abordagem podem ajudar pesquisadores a estudar a generalização composicional em outras tarefas.
A Necessidade de Generalização Composicional
Ter a habilidade de combinar diferentes partes da linguagem é uma habilidade chave que os modelos de linguagem precisam. Essa capacidade permite que eles entendam novas combinações de palavras e frases conhecidas. O parsing semântico é uma maneira de transformar a linguagem falada ou escrita em um formato que os computadores podem usar para responder a perguntas ou executar tarefas.
Muita da pesquisa atual sobre generalização composicional tem se concentrado no inglês. Isso torna difícil para falantes de outras línguas acessarem bases de conhecimento que poderiam ajudá-los a entender informações em seu próprio idioma.
O Problema com a Tradução Automática Neural
Na nossa pesquisa, analisamos um conjunto de dados conhecido como MCWQ, que é um benchmark para perguntas de parsing semântico. O conjunto de dados original foi criado usando um sistema de tradução automática neural (NMT). Embora a NMT possa ser poderosa, muitas vezes não consegue manter o significado original com precisão. Isso é uma preocupação importante, especialmente ao traduzir estruturas de linguagem complexas.
Um exemplo disso é a frase composta "executive produce". Em traduções NMT, essa frase pode ser quebrada, perdendo seu significado pretendido. Apresentamos um método baseado em regras para traduzir o conjunto de dados MCWQ para o chinês e japonês. Esse método acompanha melhor a estrutura das frases do que a NMT.
Nossas Contribuições
Criamos um novo conjunto de dados chamado MCWQ-R, que significa Perguntas Multilingues Composicionais do Wikidata com Traduções Baseadas em Regras. Esse conjunto de dados serve como um benchmark confiável para estudar a generalização composicional em parsing semântico para chinês e japonês.
Nós avaliamos a qualidade das traduções, tanto automaticamente quanto por meio de avaliação humana. Nossos achados mostram que os dados traduzidos do MCWQ-R são de qualidade muito superior a traduções anteriores.
Também realizamos experimentos usando diferentes modelos para ver como eles lidam com a generalização composicional, tanto em uma única língua quanto entre línguas.
Trabalhos Relacionados
Muita pesquisa tem focado em como medir a generalização composicional. Foram usados diferentes métodos para criar benchmarks e estudar quão bem os analisadores semânticos conseguem executar essa tarefa. Alguns estudos criaram conjuntos de dados sintéticos e examinaram quão bem os modelos poderiam generalizar de um conjunto de dados para outro.
Embora esses estudos forneçam informações valiosas, eles muitas vezes dependem da NMT, que nem sempre mantém os significados das frases durante a tradução. Neste trabalho, buscamos superar esse desafio usando uma abordagem baseada em regras para criar traduções mais precisas.
O Processo de Tradução
O método que usamos para traduzir o conjunto de dados envolve várias etapas. Primeiro, fazemos a análise das perguntas em inglês, criando um dicionário bilíngue e configurando uma estrutura gramatical para a tradução. Depois, traduzimos as frases garantindo que o significado seja mantido intacto.
Esse método também nos permite abordar algumas das diferenças linguísticas que surgem. Por exemplo, japonês e chinês têm Estruturas Gramaticais únicas que diferem do inglês. Nossa abordagem considerou cuidadosamente essas diferenças para criar traduções que sejam mais fiéis aos significados originais.
Estatísticas do Conjunto de Dados
O conjunto de dados MCWQ-R inclui o mesmo número de perguntas e consultas únicas que o conjunto de dados MCWQ. No entanto, observamos algumas diferenças ao traduzir essas perguntas. Em alguns casos, padrões foram perdidos ou colapsados durante a tradução, o que indica que as estruturas não são perfeitamente mantidas entre as línguas.
Apesar desses desafios, esperamos que nosso método leve a resultados confiáveis e consistentes para ambas as línguas.
Avaliando a Qualidade da Tradução
Para garantir a qualidade de nossas traduções, as avaliamos de duas maneiras principais. Primeiro, traduzimos manualmente um conjunto de amostra para criar um padrão de ouro para comparação. Depois, calculamos as pontuações BLEU, que medem a precisão das traduções em relação ao padrão de ouro.
Nosso método baseado em regras alcançou altas pontuações BLEU, indicando que as traduções estavam muito próximas dos resultados esperados. Por outro lado, os resultados das traduções NMT mostraram pontuações muito mais baixas, demonstrando a perda de significado e precisão nessas traduções.
Realizando Experimentos
Realizamos uma série de experimentos para testar quão bem nossos conjuntos de dados traduzidos se saíram em cenários monolíngues (uma única língua) e cross-língues (múltiplas línguas). Treinamos modelos usando tanto nossas traduções baseadas em regras quanto as traduções NMT.
Os resultados mostraram que nossas traduções baseadas em regras consistentemente superaram as versões NMT. Isso apoia nosso argumento de que métodos de tradução controlados geram melhores resultados em tarefas de generalização composicional.
Resultados Monolíngues
Em nossos experimentos, modelos treinados em nosso conjunto de dados MCWQ-R se saíram melhor do que aqueles treinados em conjuntos de dados que usavam NMT. Essa descoberta era esperada, já que os dados NMT continham imprecisões e inconsistências, o que afetou negativamente o desempenho.
Na nossa análise, descobrimos que, embora nossas traduções funcionassem bem dentro das línguas, ainda enfrentavam desafios quando aplicadas a diferentes línguas devido a diferenças estruturais.
Generalização Cross-Língue
Um dos principais objetivos da nossa pesquisa era entender quão bem esses modelos poderiam generalizar entre línguas. Treinamos um modelo específico projetado para generalização cross-língue zero-shot, o que significa que ele tinha que funcionar com línguas que não foram explicitamente treinadas.
Através de nossos experimentos, descobrimos que, embora nossos modelos tivessem algum sucesso nessa área, ainda havia lacunas notáveis no desempenho. Essas lacunas podem ser atribuídas em grande parte às diferenças inerentes entre as línguas e como elas estruturam a informação.
Discussão
Nossos resultados destacaram várias questões-chave sobre tradução e generalização composicional. As ramificações NMT produziram muitas inconsistências que prejudicaram a capacidade dos modelos de generalizar efetivamente. Também observamos que conjuntos de dados traduzidos frequentemente perdem sua variação estrutural, o que pode impactar o desempenho geral dos modelos de linguagem.
Além disso, nossa análise indicou que há uma divergência natural na maneira como as línguas expressam certas composições. Esse colapso estrutural pode prejudicar o desempenho dos modelos, levando a desafios na obtenção de generalização composicional.
Conclusão
Resumindo, introduzimos o MCWQ-R, um novo conjunto de dados desenvolvido com uma estrutura de tradução baseada em regras. Nossa pesquisa demonstrou o impacto significativo das diferenças linguísticas na generalização composicional entre línguas. Apesar dos vários desafios, nosso novo benchmark continua sendo valioso para estudos monolíngues e cross-língues em compreensão de linguagem.
Ao fornecer nosso conjunto de dados e metodologia, queremos apoiar pesquisas futuras sobre generalização composicional multilíngue, que é crucial para tornar a informação acessível para falantes de diversas línguas.
Impacto Mais Amplo
Há uma preocupação crescente sobre o potencial viés cultural em recursos de linguagem e coleta de dados. Nossa abordagem visa minimizar esses viéses focando em perguntas sintéticas que podem ser traduzidas sem perder seu significado. Planejamos compartilhar as ferramentas e gramática usadas nesta pesquisa para permitir que outros criem conjuntos de dados semelhantes em diferentes línguas, especialmente aquelas que estão menos representadas na pesquisa atual.
Ao abordar essas questões, esperamos contribuir para um acesso mais equitativo à informação para falantes de várias línguas e apoiar esforços para expandir bases de conhecimento além de perspectivas centradas no inglês.
Título: On Evaluating Multilingual Compositional Generalization with Translated Datasets
Resumo: Compositional generalization allows efficient learning and human-like inductive biases. Since most research investigating compositional generalization in NLP is done on English, important questions remain underexplored. Do the necessary compositional generalization abilities differ across languages? Can models compositionally generalize cross-lingually? As a first step to answering these questions, recent work used neural machine translation to translate datasets for evaluating compositional generalization in semantic parsing. However, we show that this entails critical semantic distortion. To address this limitation, we craft a faithful rule-based translation of the MCWQ dataset from English to Chinese and Japanese. Even with the resulting robust benchmark, which we call MCWQ-R, we show that the distribution of compositions still suffers due to linguistic divergences, and that multilingual models still struggle with cross-lingual compositional generalization. Our dataset and methodology will be useful resources for the study of cross-lingual compositional generalization in other tasks.
Autores: Zi Wang, Daniel Hershcovich
Última atualização: 2023-06-20 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.11420
Fonte PDF: https://arxiv.org/pdf/2306.11420
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.overleaf.com/read/xbghvjngxgnz
- https://aclanthology.org/2021.findings-acl.97
- https://dl.acm.org/doi/abs/10.5555/3495724.3496304
- https://arxiv.org/abs/2209.15003
- https://arxiv.org/abs/2210.03057
- https://huggingface.co/bigscience/bloom
- https://chat.openai.com/chat
- https://github.com/ziwang-klvk/CFQ-RBMT
- https://www.wikidata.org/
- https://www.wikidata.org
- https://github.com/pyurbans/urbans
- https://github.com/tomsherborne/zx-parse