リソースが少ない言語のためのビジョン・ランゲージモデルの進展
新しい方法が、いろんな言語での視覚と言語のモデルの性能を向上させる。
― 1 分で読む
最近の技術進歩により、機械が画像とテキストを一緒に理解する方法が改善されてきた。この分野は「ビジョン・ランゲージ・プリトレーニング(VLP)」として知られ、画像とその説明を一致させたり、視覚とテキストの関係を理解したり、与えられた画像に基づいて推論したりすることに焦点を当てている。しかし、これまでのほとんどの作業は英語で行われているため、他の言語にはうまく機能しない。
現在のモデルの問題点
多くの既存のVLPモデルは大量の英語データを使用しており、特別なトレーニングなしで他の言語に適用するときには効果的に機能しない。多言語モデルも存在するけど、画像や動画などの視覚データには苦労することが多い。異なる言語のテキストを視覚的特徴と一致させる試みもあったが、すべてを英語に翻訳してから処理する標準的な方法と比べると、まだ遅れている。
新しいアプローチ
この研究は、巨大なデータセットを必要とせずにVLPモデルを新しい言語に適応させるシンプルな方法を提案している。豊富なデータに頼る代わりに、既存の多言語言語モデル(MPLM)を活用することに焦点を当てている。目標は、これらのモデルからの言語表現を視覚と言語のペアと一致させることだ。
この方法は、さまざまな言語のテキストを視覚データとトークン埋め込みを使って整列させることに注力している。トークン埋め込みは意味を持つ小さなテキストデータの断片だ。翻訳技術の向上により、英語データを他の言語に自動翻訳して平行テキストセットを作成できるようになった。これにより、リソースの少ない言語でも含められるようになる。
方法のステップ
VLPモデルを新しい言語に適応させるプロセスにはいくつかの重要なステップがある:
- プリトレーニング: 主に英語の画像とテキストの大規模データセットを使ってVLPモデルをトレーニングする。
- ファインチューニング: プリトレーニングしたモデルを、十分なトレーニングサンプルがあるターゲット言語の特定のタスクに調整する。
- 平行コーパスの作成: 英語のトレーニングデータを機械翻訳ツールを使ってターゲット言語に翻訳する。
- トークン整列: 翻訳された文の対応するトークンのリストを作成する。
- クロスリンガル転送: モデルは整列されたトークンを使って、英語モデルから新しい言語モデルにコンテキストを転送する。
- ゼロショット転送: 最後に、モデルは追加のトレーニングデータなしで新しい言語でさまざまなタスクに使用できる。
機械翻訳の役割
機械翻訳の役割は、このプロセスが機能するために重要だ。これにより、新しい言語で平行文セットを作成でき、モデルは英語のバージョンとその翻訳の両方から学ぶことができる。特にトレーニングデータがあまりない言語にとっては非常に有益だ。
パフォーマンス評価
この方法の効果を評価するために、3つの主要なタスクでテストが行われた:
- 画像-テキスト検索: このタスクでは、与えられた画像の正しいテキスト説明を見つけることが求められる。
- 視覚的含意: モデルは、テキスト文が画像から論理的に続くかどうかを判断する。
- 自然言語視覚推論: このタスクでは、モデルは視覚的入力とテキスト情報を組み合わせて決定を下す。
結果は、このアプローチがさまざまな指標で他の既存モデルを上回ったことを示している。特に視覚推論と含意の面で、新しい方法は大きな改善を示した。
新しい方法の利点
このアプローチの主な利点の一つは、効果的に機能するために大量のバイリンガルデータを必要としないことだ。従来の方法では、各言語ごとに対応する画像とテキストの巨大なデータセットが必要だった。それに対して、新しいモデルは整列と適応技術を通じて、既存の小さなデータセットをより良く活用することに焦点を当てている。
さらに、結果は特にリソースの限られた言語に対して強力だった。これにより、技術のより広範な範囲の言語への機械学習の利用の新しい機会が開かれる。
課題と今後の方向性
期待される結果にもかかわらず、対処すべき課題がまだある。新しい方法はうまく機能しているが、最も優れた英語モデルと比較すると、依然としてギャップが残っている。目標は、この方法をさらに向上させ、大規模データセットにアクセスできるより高度な多言語モデルを使用することだ。
また、現在のモデルは、ターゲット言語で新しいテキストを生成する必要があるテキスト生成タスクをうまく処理できない。この分野は今後の探求にマークされており、異なる言語でテキストを生成できるモデルの開発は、機械学習において重要な目標のままだ。
結論
要するに、この新しいアプローチは、膨大なデータセットを必要とせずにVLPモデルのパフォーマンスを向上させることを可能にする。整列されたトークン埋め込みと機械翻訳の力を活用することで、視覚と言語モデルの適用範囲を広げる新しい道を提供する。この手法は特にリソースが少ない言語に対して大きな可能性を示しており、機械学習技術のより広範なアクセスを促進する。今後の作業は、パフォーマンスギャップをさらに縮め、これらのモデルの能力をテキスト生成にまで拡大することを目指す。
タイトル: Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages
概要: Vision-Language Pre-training (VLP) has advanced the performance of many vision-language tasks, such as image-text retrieval, visual entailment, and visual reasoning. The pre-training mostly utilizes lexical databases and image queries in English. Previous work has demonstrated that the pre-training in English does not transfer well to other languages in a zero-shot setting. However, multilingual pre-trained language models (MPLM) have excelled at a variety of single-modal language tasks. In this paper, we propose a simple yet efficient approach to adapt VLP to unseen languages using MPLM. We utilize a cross-lingual contextualized token embeddings alignment approach to train text encoders for non-English languages. Our approach does not require image input and primarily uses machine translation, eliminating the need for target language data. Our evaluation across three distinct tasks (image-text retrieval, visual entailment, and natural language visual reasoning) demonstrates that this approach outperforms the state-of-the-art multilingual vision-language models without requiring large parallel corpora. Our code is available at https://github.com/Yasminekaroui/CliCoTea.
著者: Yasmine Karoui, Rémi Lebret, Negar Foroutan, Karl Aberer
最終更新: 2023-06-29 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2306.16774
ソースPDF: https://arxiv.org/pdf/2306.16774
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/google-research/bert/blob/master/multilingual.md
- https://pypi.org/project/googletrans/
- https://github.com/salesforce/ALBEF
- https://huggingface.co/bert-base-multilingual-cased
- https://github.com/neulab/awesome-align
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/Yasminekaroui/CliCoTea
- https://www.sbert.net