言語のギャップを埋める:インドの言語に焦点を当てて
インドの少数言語の翻訳をサポートしてるよ。
Hamees Sayed, Advait Joglekar, Srinivasan Umesh
― 1 分で読む
目次
私たちの世界にはたくさんの言語が話されてるけど、その中には翻訳に十分なリソースがない言語もあるんだ。お気に入りの料理を作れる人がいないみたいな感じかな。今回はインドからの4つの言語、カシー、ミゾ、マニプリー、アッサム語に焦点を当ててる。彼らには翻訳の愛がちょっと必要で、私たちは手助けするためにここにいるよ!
低リソース言語の翻訳の課題
これらの言語を翻訳するのは、猫に泳ぎ方を教えるような感じ。難しい!英語やスペイン語にはかなり進展があったけど、カシー、ミゾ、マニプリー、アッサム語は戸惑ってる。なんでかって?彼らには機械が学ぶためのバイリンガルリソース、例えば本やウェブサイトが足りてないからだよ。
データ収集:最初の一歩
最初のステップはデータを集めることだった。デジタルの方法でいろんなソースからデータセットを探して、できるだけ多くのバイリンガル素材を集めたんだ。これは、特別なレシピのための材料を集めるみたいな感じで、始めるために正しいミックスが必要だった。
カシーとミゾのデータがあまりなかったから、バックトランスレーションというトリックを使ったんだ。ジョークを他の言語で言いたいけど、英語でしか覚えてないときみたいに。別の言語に訳してから再び英語に戻す。これが翻訳モデルにもっと例を作るのに役立つんだ。電話ゲームみたいだけど、もっと言葉が多い感じ!
モデルのトレーニング:料理の時間
材料が揃ったら、料理の時間だ!私たちはNLLB 3.3Bという超スマートな翻訳モデルを使った。頭の中で33億の考えが動いてるデジタルシェフみたいなものだよ。
最初はマスク付き言語モデリングというのを使った。心配しないで、プロセス中にマスクはつけてないから!これは、独自のデータを使ってモデルが言語を学ぶのを助けるってこと。後でつまずかないようにね。
次に、英語から4つの言語への翻訳のためにモデルを微調整した。カシーはちょっと特別なトリートメントが必要だったから、特別なトークンを加えた。これは、地元の味を扱えるように独自のスパイスを与えるみたいなものだよ!
各言語の重要性
主役たちについて少し話そう!
アッサム語:フレンドリーな隣人
アッサム語はアッサムで話されていて、お茶とゾウの土地だよ!1500万人以上の話者がいて、結構重要な言語なんだ。この言語には長い歴史があって、王室の公式言語から今では何百万もの人に愛されてる。
マニプリー語:早口の子
マニプリー語はマニプール出身のクールな子。約176万人の話者がいて、インドで最も人気のあるチベット・ビルマ語なんだ。成長のレースがあれば、マニプリー語はヒンディー語やカシミール語のすぐ後ろを全速で走ってるよ!
カシー語:物語を語る者
カシー語はメガラヤの賢い長老みたい。約100万人が話していて、豊かな物語や伝統を持ってる。ラテン文字で書かれることが多くて、ちょっと現代的なひねりが加わる感じだね!
ミゾ語:歴史的なヒーロー
ミゾ語はミゾラムの言語で、約80万人が話してる。豊かな口承歴史があって、19世紀の後半に書き言葉として生まれた。ミゾ語は家族の物語を語る者で、ラテン文字を使って昔の話を共有してるよ。
データ準備:すべてを整える
モデルを稼働させる前に、すべてを整えて磨き上げる必要があった。モーゼスというツールを使って、テキストデータをスムーズにしたんだ(海を割ったモーゼスじゃなくて、便利なソフトウェアね!)。
厄介な印刷不可の文字を取り除いた。これらはデジタルの皿にふさわしくないクラムみたいなもんだ。次に、異なるフォーマットでテキストが同じように見えるようにした。整合性が大事だからね、いいレシピのように!
トレーニングデー:レシピの実行
トレーニングプロセスは強力なコンピューターで行われた。Nvidia A6000 GPUを使って、コンピューターのレースカーみたいな感じ。これでプロセスをスピードアップさせながら、料理がちょうど良くなるようにしたんだ。
NLLBモデルは「トランスフォーマー」アーキテクチャに基づいてる。これは、私たちのデジタルシェフが翻訳を良くするためにたくさんの道具やテクニックを持ってるって意味だよ。
インファレンス:テイストテスト
翻訳モデルを作った後は、テイストテストの時間!ビームサーチを使って、最高の翻訳を得るために頑張った。ベーカリーで一番おいしいケーキのスライスを見つけようとする感じで、ふわふわでクリーミーなやつが欲しいよね?
評価:どうだった?
モデルがどれだけの価値があるかを知りたかったから、いろんなスコアリング方法、特にBLEUスコアを使って性能を測った。アッサム語の翻訳は結構良かったけど、カシー、ミゾ、マニプリーはもう少し頑張りが必要だった。
例えば、英語からカシーへの翻訳はスコアが低かった。あまりうまく作られたサンドイッチみたいな感じ。マニプリー語の翻訳もいくつかの課題があって、バックトランスレートされたデータがいつも的を射てるわけじゃないって気づかされた。
制限:何がもっと良くなるか?
モデルにも調子がイマイチの日があった。一つの問題は、限られたデータセットサイズ。これって、たくさんの料理を作るのに鍋やフライパンが足りない小さいキッチンを持ってるみたいな感じ。一つの大きなデータセットがあれば、モデルは驚くべきことができるかもしれない。
バックトランスレートされたデータの質も別の問題だった。時々、再加熱した食べ物はあまり美味しくない。これからのためにデータ生成技術を磨く必要があるんだ。
また、モデルが英語に翻訳するのとインディック言語に翻訳するのとの間にギャップがあることにも気づいた。これは、モデルがタンゴを完璧に踊れるけど、チャチャを踊るのに躓くみたいなもんだ。
最後に、私たちのデータは現実の言語使用の豊かさを真に表しているわけじゃないかもしれない。これは、誰かを一つのレシピだけで料理を教えるようなもので、料理本全体を使って教えるわけじゃないからね。
結論:これからの道
結局、低リソース言語の翻訳への冒険が私たちに課題と機会を見せてくれた。進展はあったけど、まだ改善の余地があるよ。
モデルを洗練させて、より良いデータを集めることで、手作りの食事みたいに楽しい翻訳を提供できることを願ってる。カシー、ミゾ、マニプリー、アッサム語が翻訳の世界で栄えて、これらの美しい言語が少しでも孤独を感じなくて済む未来を願おう!
タイトル: SPRING Lab IITM's submission to Low Resource Indic Language Translation Shared Task
概要: We develop a robust translation model for four low-resource Indic languages: Khasi, Mizo, Manipuri, and Assamese. Our approach includes a comprehensive pipeline from data collection and preprocessing to training and evaluation, leveraging data from WMT task datasets, BPCC, PMIndia, and OpenLanguageData. To address the scarcity of bilingual data, we use back-translation techniques on monolingual datasets for Mizo and Khasi, significantly expanding our training corpus. We fine-tune the pre-trained NLLB 3.3B model for Assamese, Mizo, and Manipuri, achieving improved performance over the baseline. For Khasi, which is not supported by the NLLB model, we introduce special tokens and train the model on our Khasi corpus. Our training involves masked language modelling, followed by fine-tuning for English-to-Indic and Indic-to-English translations.
著者: Hamees Sayed, Advait Joglekar, Srinivasan Umesh
最終更新: 2024-11-11 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2411.00727
ソースPDF: https://arxiv.org/pdf/2411.00727
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://ai4bharat.iitm.ac.in/bpcc/
- https://github.com/openlanguagedata/seed
- https://censusindia.gov.in/
- https://google.translate.com/
- https://github.com/facebookresearch/stopes/blob/main/stopes/pipelines/monolingual/monolingual_line_processor.py