Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avanços na Tradução Automática em Nível de Documento

Um estudo sobre como melhorar a tradução automática de documentos inteiros usando recursos de discurso.

― 9 min ler


Desafios na Tradução deDesafios na Tradução deDocumentosatuais de tradução automática.Analisando as lacunas nos sistemas
Índice

Estudos recentes mostram que os sistemas de tradução automática, principalmente para línguas populares, estão melhorando e, às vezes, parecem fazer um trabalho tão bom quanto os humanos ao traduzir frases. Por causa disso, a galera da área de tradução agora tá olhando mais de perto pra tradução de documentos inteiros em vez de só frases. A tradução de documentos é mais complicada e exige uma compreensão melhor de como as partes do texto se relacionam, focando em aspectos como consistência, coerência e coesão.

Os métodos atuais de avaliação dos sistemas de tradução automática que analisam apenas frases não dão conta de entender o contexto. Este artigo apresenta um novo conjunto de dados que vem com notas detalhadas sobre recursos discursivos. O conjunto de dados é baseado em uma grande coleção de textos traduzidos e inclui formas extras de avaliar traduções, focando em tópicos como Entidades Nomeadas, terminologia, co-referência e citações.

Usando esse conjunto de dados, vamos analisar como as estruturas do discurso na língua de origem e na tradução diferem e quais desafios essas diferenças criam para a tradução automática. A ideia é destacar como as saídas de tradução automática muitas vezes não batem com as traduções humanas, especialmente em relação aos detalhes das estruturas do discurso.

Descrição do Conjunto de Dados

O conjunto de dados usado para este estudo foi retirado de um grande conjunto de textos bilíngues que consiste em várias novelas de diferentes gêneros. Ele contém traduções em chinês e inglês. Cada par de traduções tem anotações detalhadas que focam em diferentes aspectos discursivos.

O conjunto de dados inclui anotações para:

  1. Entidades Nomeadas: Nomes específicos de pessoas, lugares, organizações, etc.
  2. Terminologia: Palavras ou frases relacionadas a tópicos ou áreas específicas.
  3. Co-referência: Isso mostra como palavras ou frases diferentes no texto se referem à mesma coisa.
  4. Citações: Fala direta dos personagens no texto junto com a identificação do falante.

No total, mais de 15.000 menções estão incluídas neste conjunto de dados anotado, que fornece uma base rica para analisar o desempenho da tradução automática.

A Necessidade de Avaliação em Nível de Documento

Os sistemas de tradução automática deram passos significativos, especialmente com a introdução de modelos de tradução automática neural. No entanto, a maior parte dos dados usados para treinar esses sistemas vem apenas com alinhamento em nível de frase. Isso dificulta a obtenção de traduções de alta qualidade quando documentos inteiros estão envolvidos, que têm estruturas mais complexas.

Ao traduzir documentos, certos recursos-chave devem ser levados em conta:

  • A tradução de entidades nomeadas deve ser consistente ao longo do texto.
  • As relações de co-referência precisam se manter intactas, ou seja, as referências à mesma entidade devem ser claras e ligadas corretamente.
  • A estrutura das conversas também deve ser preservada, capturando quem está falando com clareza.

Se as traduções automáticas não levam esses aspectos em conta, elas frequentemente produzem textos que soam artificiais e carecem de coerência.

Principais Recursos Discursivos na Tradução em Nível de Documento

Três recursos principais são vitais ao lidar com traduções em nível de documento:

  1. Consistência da Entidade Nomeada: Isso significa manter os mesmos nomes e termos consistentes ao longo do texto. Se o nome de um personagem é traduzido de forma diferente em diferentes pontos, isso pode confundir os leitores.

  2. Resolução de Co-referência: Isso se refere à compreensão de como diferentes termos no texto se referem à mesma entidade. Por exemplo, se uma pessoa é chamada pelo nome em uma frase e como "ele" em outra, a tradução precisa manter essa conexão corretamente.

  3. Estrutura da Conversa: Quando os personagens falam, é crucial acompanhar quem está falando e garantir que isso esteja claro em toda a tradução.

Analisando esses recursos, podemos entender melhor como os sistemas de tradução automática diferem das traduções humanas e onde melhorias são necessárias.

Processo de Anotação

As anotações no conjunto de dados foram criadas por tradutores profissionais que marcaram cuidadosamente os textos de acordo com diretrizes específicas. Eles focaram em identificar com precisão entidades nomeadas, terminologia, links de co-referência e citações.

O processo envolveu revisar os textos várias vezes, garantindo que tudo fosse marcado corretamente. O objetivo era criar um recurso que pesquisadores e desenvolvedores pudessem usar para estudar e melhorar traduções automáticas.

Avaliando o Desempenho da Tradução Automática

O desempenho de vários sistemas de tradução automática foi comparado com as traduções humanas usando o conjunto de dados anotado. A avaliação analisou como bem os sistemas lidaram com entidades nomeadas, terminologia, co-referência e coerência geral.

Tradução de Entidades Nomeadas

O primeiro aspecto examinado foi como cada sistema traduziu entidades nomeadas. Isso inclui nomes de personagens, locais e organizações. Os sistemas foram comparados para ver quão consistentes eles eram na tradução dessas entidades. Muitas vezes, as traduções automáticas tinham dificuldades em manter nomes consistentes ao longo de um texto, o que chamou a atenção para a necessidade de melhores treinamentos e modelos.

Tradução de Terminologia

O próximo foco foi a terminologia, que envolve termos específicos usados em um certo contexto, como o gênero particular de uma história. As traduções automáticas frequentemente falham em traduzir esses termos corretamente, levando a confusões sobre o significado do texto.

Resolução de Co-referência

O processo de resolução de co-referência foi outra área vital de avaliação. Ele analisa quão bem a tradução mantém as relações entre diferentes termos que se referem às mesmas entidades. Muitas traduções automáticas tiveram problemas para resolver Co-referências com precisão, o que prejudicou a coerência geral dos textos traduzidos.

Qualidade Geral e Coerência

Finalmente, a qualidade geral das traduções, incluindo sua coerência, foi examinada. Coerência se refere a quão bem as partes do documento se encaixam para formar um todo que faça sentido. Os resultados indicaram que traduções humanas superaram consistentemente as traduções automáticas, mas havia diferenças notáveis mesmo entre vários sistemas de tradução automática.

Insights da Análise Bilíngue

Ao olhar para ambas as línguas juntas, padrões emergiram que lançaram luz sobre os desafios que os sistemas de tradução automática enfrentam. Aqui estão algumas descobertas notáveis:

  • Uso de Pronomes: Uma diferença significativa é como pronomes são usados em chinês versus inglês. O chinês frequentemente omite pronomes, dependendo do contexto para transmitir significado. Isso torna a tradução para o inglês, que requer uso claro de pronomes, desafiadora.

  • Distribuição de Entidades: Os tipos de entidades nomeadas encontradas nas transcrições eram bastante semelhantes entre as duas línguas. No entanto, a maneira como essas entidades eram referenciadas frequentemente diferia, criando obstáculos adicionais para os sistemas de tradução.

  • Cadeias de Co-referência: A análise de co-referência mostrou que o inglês tende a ter cadeias de referências mais longas em comparação com o chinês. Essa diferença afeta como bem a tradução mantém a coerência entre as frases.

Desafios para a Tradução Automática

As disparidades entre como o chinês e o inglês lidam com o discurso criam vários desafios principais para a tradução automática.

  1. Consistência de Entidades: Muitas entidades nomeadas têm alta repetição dentro dos documentos, o que pode levar a inconsistências se não forem rastreadas adequadamente.

  2. Reconhecimento de Entidades: Alguns nomes fictícios são complexos e podem resultar em resultados de tradução ruins se não forem reconhecidos corretamente pelo modelo.

  3. Informação Anafórica: A omissão de pronomes em chinês significa que o contexto é crucial para garantir que os pronomes corretos sejam usados nas traduções em inglês.

  4. Informação Morfológica: Certos aspectos gramaticais, como tempo verbal, podem se perder na tradução, levando a mais desafios.

Esses desafios destacam a necessidade de uma abordagem mais sutil no treinamento dos sistemas de tradução automática, especialmente ao considerar discurso e contexto.

Recomendações para Trabalhos Futuros

Com base nas descobertas desta análise, várias recomendações podem ser feitas para melhorar os sistemas de tradução automática:

  • Incorporar Recursos Discursivos no Treinamento: As traduções automáticas devem ser treinadas com foco em recursos discursivos para capturar melhor como diferentes elementos de um texto se relacionam.

  • Melhorar Modelos de Resolução de Co-referência: Aprimorar os modelos que lidam com co-referência poderia ajudar a melhorar a coerência das traduções.

  • Focar no Reconhecimento de Entidades: Esforços devem ser feitos para permitir que os sistemas de tradução automática reconheçam e traduzam consistentemente entidades nomeadas, especialmente em narrativas complexas.

  • Aproveitar o Feedback Humano: Envolver tradutores profissionais no processo de avaliação pode fornecer insights valiosos que levam a melhores treinamentos e refinamentos dos modelos de tradução.

Conclusão

A tradução automática evoluiu bastante, mas ainda existem desafios significativos para superar as complexidades da tradução de documentos. Recursos discursivos como consistência de entidades, resolução de co-referência e estrutura de conversa são cruciais para produzir traduções de alta qualidade. Através de anotações e análises detalhadas, podemos entender melhor como as traduções automáticas diferem das traduções humanas. Esse conhecimento guiará melhorias futuras nos sistemas de tradução automática, resultando em melhores ferramentas para traduzir documentos entre línguas.

Fonte original

Título: Discourse Centric Evaluation of Machine Translation with a Densely Annotated Parallel Corpus

Resumo: Several recent papers claim human parity at sentence-level Machine Translation (MT), especially in high-resource languages. Thus, in response, the MT community has, in part, shifted its focus to document-level translation. Translating documents requires a deeper understanding of the structure and meaning of text, which is often captured by various kinds of discourse phenomena such as consistency, coherence, and cohesion. However, this renders conventional sentence-level MT evaluation benchmarks inadequate for evaluating the performance of context-aware MT systems. This paper presents a new dataset with rich discourse annotations, built upon the large-scale parallel corpus BWB introduced in Jiang et al. (2022). The new BWB annotation introduces four extra evaluation aspects, i.e., entity, terminology, coreference, and quotation, covering 15,095 entity mentions in both languages. Using these annotations, we systematically investigate the similarities and differences between the discourse structures of source and target languages, and the challenges they pose to MT. We discover that MT outputs differ fundamentally from human translations in terms of their latent discourse structures. This gives us a new perspective on the challenges and opportunities in document-level MT. We make our resource publicly available to spur future research in document-level MT and the generalization to other language translation tasks.

Autores: Yuchen Eleanor Jiang, Tianyu Liu, Shuming Ma, Dongdong Zhang, Mrinmaya Sachan, Ryan Cotterell

Última atualização: 2023-05-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.11142

Fonte PDF: https://arxiv.org/pdf/2305.11142

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes