Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス # 計算と言語

NLPの言語の壁を乗り越える

低資源言語の自然言語処理における課題に対処する。

Surangika Ranathungaa, Shravan Nayak, Shih-Ting Cindy Huang, Yanke Mao, Tong Su, Yun-Hsiang Ray Chan, Songchen Yuan, Anthony Rinaldi, Annie En-Shiun Lee

― 1 分で読む


NLPの言語ギャップを克服 NLPの言語ギャップを克服 する の取り組み。 低リソース言語の翻訳をもっと良くするため
目次

自然言語処理(NLP)は、コンピュータに人間の言語を理解させることを教えることだよ。まるで、猫にキーボードからどいてほしいって伝えるような感じ。でも、言語によっては、コンピュータモデルを教えるためのデータが少ないものもあるんだ。そんな言語を低資源言語(LRLs)って呼ぶよ。言語間の翻訳をする時は、十分な例があることが大事なんだよ。じゃあ、例が足りない時はどうするの?

LRLの課題

チェスを教えようとする時に、全ての駒を渡さずに少しだけ渡すような感じ。LRLsに対処するNLPモデルは、材料が足りないと苦労するんだ。翻訳のようなタスクをこなすのが難しくなるから、少ないデータを使ってより良い翻訳方法を考える必要があるんだ。

補助データの利用

データが足りない時の効果的な方法の一つは、関連する領域や言語からの並列データを使うことだよ。友達同士でレシピを共有するのと似てる。じゃがいもを使ったレシピがあって、さつまいもを使った料理を作りたい時、友達がどのように作ったかを参考にするのが役立つよね。同じように、関連する言語やトピックの例を使って翻訳モデルを訓練できるんだ。

ファインチューニングとプレトレーニング

翻訳システムを構築する時、補助データの使い方には一般的に二つの主要な方法があるよ:ファインチューニングとプレトレーニング。

  • **ファインチューニング**は、経験に基づいて友達に料理のコツを教えるようなもので、基本的な理解があって、ちょっと調整するだけなんだ。

  • **プレトレーニング**は、さつまいもの料理を作る前に料理学校に戻るようなもので、ゼロから始めるってことだよ。

オリジナルソース

タイトル: Exploiting Domain-Specific Parallel Data on Multilingual Language Models for Low-resource Language Translation

概要: Neural Machine Translation (NMT) systems built on multilingual sequence-to-sequence Language Models (msLMs) fail to deliver expected results when the amount of parallel data for a language, as well as the language's representation in the model are limited. This restricts the capabilities of domain-specific NMT systems for low-resource languages (LRLs). As a solution, parallel data from auxiliary domains can be used either to fine-tune or to further pre-train the msLM. We present an evaluation of the effectiveness of these two techniques in the context of domain-specific LRL-NMT. We also explore the impact of domain divergence on NMT model performance. We recommend several strategies for utilizing auxiliary parallel data in building domain-specific NMT models for LRLs.

著者: Surangika Ranathungaa, Shravan Nayak, Shih-Ting Cindy Huang, Yanke Mao, Tong Su, Yun-Hsiang Ray Chan, Songchen Yuan, Anthony Rinaldi, Annie En-Shiun Lee

最終更新: 2024-12-27 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2412.19522

ソースPDF: https://arxiv.org/pdf/2412.19522

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事