Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

辞書連鎖プロンプトを使って翻訳を改善する

新しい方法で、多言語辞書を使ってリソースが少ない言語の翻訳が向上するよ。

― 1 分で読む


レア言語の翻訳を強化するレア言語の翻訳を強化するされた。新しい方法で言語モデルの翻訳が大幅に改善
目次

大規模言語モデル(LLMs)は、異なる言語間でテキストを翻訳するのに使われてるよ。たくさんのデータにアクセスできると、いろんな場面でうまくいくんだけど、珍しい単語やリソースが少ない言語では苦労することが多いんだ。データが足りなくて、リアルなシナリオで翻訳に使うのが難しい。そこで、Chain-of-Dictionary Prompting(CoD)という新しい方法が登場した。この方法は、マルチリンガル辞書を使ってLLMの翻訳をもっと効果的にするものだよ。

珍しい単語の翻訳の問題

LLMsは大量のトレーニングデータを持っているけど、時々特定の単語の翻訳が難しいことがあるんだ。特にトレーニングデータにあまり登場しない単語は苦労する。あまり話されていない言語やデータが少ない言語では、特に深刻な問題になる。この場合、翻訳の瞬間に例から学ぶインコンテキスト学習が難しくて、リソースが少ない言語に合った関連する例を見つけるのが簡単じゃないんだ。

Chain-of-Dictionary Prompting(CoD)の紹介

CoDは、マルチリンガル辞書の既存の知識を活用してLLMの翻訳能力を向上させる新しいフレームワークなんだ。この方法は、標準の翻訳プロンプトと、いくつかの言語での翻訳された単語のリストから成る二つの主要な部分を含んでいる。これらの辞書はチェーンのようにつながっていて、モデルの理解を導くための一連の翻訳を提供するんだ。

例えば、「limit」という単語を翻訳する必要があるとき、プロンプトには「'limit'はドイツ語で'Grenze'って意味で、別の言語では'çäk'って意味だよ」って情報が含まれることがある。この追加情報があれば、モデルは翻訳がどうあるべきかをもっと明確に考えられるんだ。

CoDの仕組み

CoDフレームワークは、翻訳が必要なソース文を取り込んで、それをマルチリンガル辞書にリンクさせることで、関連する単語とその意味を異なる言語で提供するんだ。翻訳リクエストにテキストの文字列を追加して、異なる言葉が複数の言語でどう関連しているかを示すことで実現しているよ。

プロンプトの基本構造は二つの部分からなっている:

  1. 翻訳リクエスト: 「からに以下のテキストを翻訳して: 。」

  2. 連結辞書情報: 「<source-languageの単語X>は<target-languageの単語X>は<auxiliary-language 1の単語X>は<auxiliary-language 2の単語X>って意味だ。」

この設定で、モデルは精度を向上させるための追加のコンテキストを持ちながら翻訳を処理できるんだ。

CoDの利点

いろんな実験で、CoDメソッドがリソースが少ない言語に対する翻訳性能を大幅に向上させることが示されたんだ。連結されたマルチリンガル辞書を使うことで、モデルの翻訳処理能力が従来のプロンプト手法と比べて劇的に良くなったんだ。テストでは、CoDを利用したモデルが場合によっては13倍も良い性能を発揮したことがあるよ。

この方法は、瞬間的な翻訳の例に依存する少数ショットデモよりも効果的で、特にリソースが少ない状況では、フィットする例を見つけるのが難しいから、少数ショットデモは無関係なことが多いんだ。

実験の設定

実験では、ChatGPTモデルの異なるバージョンをCoDで試して、FLORES-200というデータセットに対抗させた。このデータセットには、さまざまなトピックを扱った文が含まれていて、約200の言語で翻訳されているんだ。研究者たちは、CoDメソッドを使った場合と使わなかった場合で、モデルがどれだけうまく機能するかを比較したよ。

実験からの発見

結果は、CoDを使うことで多くの言語が改善され、67%以上の言語が恩恵を受けたことを示した。多くの場合、モデルは精度で少なくとも5ポイント以上翻訳を改善したよ。例えば、キリル文字で書かれたセルビア語など、一部の言語では改善がさらに大きく、CoDメソッドの力が見えたんだ。

興味深いことに、CoDから恩恵を受けなかった言語もあったけど、その例は少なくて、このアプローチの全体的なポジティブな影響をかき消すほどではなかったよ。

メカニズムの理解

CoDは、マルチリンガル辞書を活用して、より情報に基づいた翻訳プロセスを作り出すんだ。異なる言語の単語をチェーンでリンクすることで、モデルはあまり一般的ではない単語の扱い方について広い視点を得ることができるんだ。これが混乱を減らして、翻訳の質を向上させるのを助ける。

いろんなモデルと比較したとき、CoDは常にそれらを上回って、効果的であることを示したよ。これにより、LLMsは利用可能な情報をよりうまく活用して、もっと正確で関連性のある翻訳を作り出すことができるんだ。

将来の研究への影響

CoDメソッドは期待できる結果を示しているけど、まだやるべきことはある。現在の200言語に焦点を当てたことは、さらに多くの言語の探索が必要だってことを示しているんだ。世界中には、機械翻訳のサポートのレベルがさまざまな何千もの言語があって、このギャップを埋めることが重要だよ。

将来的な改善点としては、辞書の作成方法やリンクの仕方を洗練させたり、翻訳の成功を最大化するために異なる言語の組み合わせを試したりすることが考えられるね。

結論

Chain-of-Dictionary Promptingメソッドは、大規模言語モデルの翻訳能力を向上させる実行可能なソリューションを提供するよ。マルチリンガル辞書の既存の知識を活用することで、CoDは特に翻訳が難しかった言語でのモデルのパフォーマンスを向上させることができるんだ。

正確な翻訳の需要がますます高まる中で、CoDのような方法が言語のギャップを埋める手助けをして、みんなのコミュニケーションをもっと楽に、効果的にしてくれるんだ。この研究の結果は、機械翻訳の将来の進歩への道を開き、より多くの言語が正確に表現され理解されることを確実にするよ。

オリジナルソース

タイトル: Chain-of-Dictionary Prompting Elicits Translation in Large Language Models

概要: Large language models (LLMs) have shown surprisingly good performance in multilingual neural machine translation (MNMT) even when trained without parallel data. Yet, despite the fact that the amount of training data is gigantic, they still struggle with translating rare words, particularly for low-resource languages. Even worse, it is usually unrealistic to retrieve relevant demonstrations for in-context learning with low-resource languages on LLMs, which restricts the practical use of LLMs for translation -- how should we mitigate this problem? To this end, we present a novel method, CoD, which augments LLMs with prior knowledge with the chains of multilingual dictionaries for a subset of input words to elicit translation abilities for LLMs. Extensive experiments indicate that augmenting ChatGPT with CoD elicits large gains by up to 13x chrF++ points for MNMT (3.08 to 42.63 for English to Serbian written in Cyrillic script) on FLORES-200 full devtest set. We further demonstrate the importance of chaining the multilingual dictionaries, as well as the superiority of CoD to few-shot demonstration for low-resource languages.

著者: Hongyuan Lu, Haoran Yang, Haoyang Huang, Dongdong Zhang, Wai Lam, Furu Wei

最終更新: 2024-08-17 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.06575

ソースPDF: https://arxiv.org/pdf/2305.06575

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事