フェニックスプロジェクト:AIで言語の壁を越える
AI言語モデルを複数の言語で使えるようにする取り組み。
― 1 分で読む
目次
この文書では「フェニックス」と呼ばれるプロジェクトについて話すよ。これは、ChatGPTのような言語モデルをいろんな言語を話す人たちに提供することを目指してるんだ。英語や中国語などの人気のある言語だけじゃなくて、資源が少ない言語にもサポートを提供することに重点を置いてる。目標は、特にルールや他の制約のためにアクセスが限られている場所で、より多くの人が高度なAIツールを利用できるようにすることなんだ。
AIの優位性の問題
今のところ、ChatGPTやその進化版であるGPT-4などの大規模言語モデルは、1社によって開発されているんだ。これが「AIの優位性」と呼ばれる状況を引き起こして、1つの団体がAI技術に対して大きな力と影響を持つことになっちゃう。このことが多くの人にとって懸念されているんだよ。これが続くと、1社がAIの未来や社会への影響に対して過度にコントロールを持つことになりかねない。
AIコミュニティは、この状況を変えるべきだと提案していて、人工知能の発展がさまざまな研究者や開発者の間でよりオープンに共有されるようにしようとしてるんだ。これによって、特定の組織がこの分野を支配することを防ぎ、AIシステムの中央集権的なコントロールに伴うリスクを最小限に抑えられる。
フェニックスプロジェクトの目標
フェニックスプロジェクトの主な目標は、ChatGPTのような言語モデルのトレーニングとアクセスのバリアを下げることなんだ。これによって、より多くの研究者や開発者がAI研究に参加して、多様なアイデアや解決策を提供できるようになる。プロジェクトは、異なるバックグラウンドや文化を持つ人々に役立つ多言語AIを作ることに焦点を当ててるよ。
オープンソースコミュニティの現在のモデルは、ラテン文字やキリル文字以外の言語を無視しがちなんだ。この exclusion はオープンソースの精神に反していて、一部のグループが技術にアクセスできないのを否定してる。だから、フェニックスはこのギャップを埋めて、すべての人に言語サポートを提供できるようにしようとしてるんだ。
方法論
フェニックスを開発するために、2つの主要な戦略が使われてるよ:
指示ベースの調整:これはモデルに人間の指示を従うように教える方法だ。最初の指示を人が作って、それを使ってChatGPTモデルが似たようなものを生成することが含まれるかもしれない。
会話ベースの調整:このアプローチは、ChatGPTとの実際の会話を使ってモデルをトレーニングするものだ。指示データは通常1つの質問に焦点を当てるけど、会話データはモデルがやり取りの中でどう関わるかを学ばせるのに役立つんだ。
フェニックスは、この2つのデータタイプを組み合わせてトレーニングしていて、どちらのタイプも多言語でうまく機能する能力を高めると信じてる。トレーニングプロセスは、すでにさまざまな言語の基本的な理解を持っている事前トレーニング済みのモデルから始まるよ。
多言語データの収集
多言語モデルを作成する上での大きな課題は、さまざまな言語で十分なデータを集めることなんだ。プロジェクトは指示と会話データを収集して、それをいろんな言語に翻訳してる。
指示データはさまざまなソースから来ることができて、各言語の使用パターンに従って翻訳される。これには、提供される答えがターゲット言語で自然に感じられるように、文化的側面を考慮することも含まれるよ。
会話データについては、ユーザーが共有した会話がいろんなオンラインプラットフォームから集められている。これによって、モデルが会話的に応答する能力をトレーニングするのに役立つんだ。多様なデータセットを使用することの重要性が強調されていて、モデルがさまざまな言語に効果的に対応できるようにしてる。
モデルに「フェニックス」と名付ける
モデルの名前を選ぶことももう1つのハードルで、多くの動物の名前がすでに言語モデルに使われているんだ。「フェニックス」という名前が選ばれたのは、中国文化において力強く適応可能な鳥を象徴しているからだよ。このアイデアは、フェニックスが多くの言語を理解し、コミュニケーションを取る能力を表していて、文化のギャップを埋める役割も果たすんだ。
ラテン語に焦点を当てたフェニックスのバージョンには、「キメラ」という名前が選ばれた。キメラはギリシャ神話に出てくるさまざまな動物の部分からできた伝説の生き物で、異なる文化を1つの言語モデルに組み合わせることを象徴してる。
モデルの評価
フェニックスが既存のモデルと比べてどれだけうまく機能するかを評価するために、自動評価と手動評価の両方が使われてる。質問は複数のカテゴリーにわたって作成されていて、各モデルが生成する答えをテストするんだ。高度なAIを使って、これらの答えを有用性、正確性、関連性、詳細レベルに基づいて評価するよ。
人間の評価もモデルのパフォーマンスを理解する上で重要な役割を果たしてる。ボランティアにフェニックスと他のモデルの応答を比較してもらって、どちらがさまざまな基準に基づいてより良いパフォーマンスをするかを判断してもらうんだ。
フェニックスのパフォーマンス
中国語に関しては、フェニックスは他のオープンソースの言語モデルと比べて素晴らしいパフォーマンスを示してるよ。多くの中国向けモデルを上回っていて、独自のモデルとも競争できることを示してる。
アラビア語、日本語、韓国語のような非ラテン語に関しても、フェニックスは既存の言語モデルよりもかなり良いパフォーマンスを発揮してる。多言語モデルは特定の言語向けに設計されたモデルよりも常に優れているわけではないけど、さまざまな言語を通じた広い理解と適応能力をもたらすことは大事なんだ。
ラテン語モデルのキメラも素晴らしい結果を示していて、品質の高いスコアを達成してる。これは、フェニックスとそのラテン語の仲間がさまざまなコンテキストで堅実なパフォーマンスを発揮する可能性を示してるよ。
フェニックスの意義
このプロジェクトは、AI言語モデルへのアクセスを民主化して、オープンソースで多言語対応にすることを目指してるんだ。フェニックスは、そのトレーニング段階で豊富な多言語データを包括的に使用する最初のモデルの1つで、さまざまな言語に効果的に対応できるようにしてる。
指示に焦点を当てたアプローチと会話ベースのアプローチの組み合わせで、フェニックスは既存のモデルの中で強力な候補とされてる。地理的、経済的、政治的な障壁によって技術へのアクセスが限られているユーザーにとって、高度なツールとして見なされてるよ。
ChatGPTの民主化に関する既存のトレンド
ChatGPTの立ち上げ以来、似たような能力を提供することを目指したさまざまなモデルが出てきてる。これらのモデルは、LLaMAやBLOOMのような確立された言語モデルに基づいていて、研究者にとってよりアクセスしやすく、手頃な価格にする方法に焦点を当ててるんだ。
最近の多くの努力は、事前トレーニング済みモデルを異なるトレーニングデータを使って調整するポストトレーニング方法に注目してる。これにより、リソースが不足している研究チームのためにプロセスがより実現可能になるんだ。
指示と会話ベースの調整モデル
指示ベースの調整からは、Alpacaのような顕著なモデルが出てきてる。このモデルは、効果的なトレーニングのために自己生成された指示を利用してる。同様に、会話ベースのモデルも人気を集めていて、ChatGPTとのユーザーインタラクションを活用してパフォーマンスを向上させてるよ。
これらのモデルは主に英語に焦点を当てているため、多言語的な文脈での使いやすさが制限されてる。いくつかは非ラテン言語をフレームワークに取り入れ始めているものの、多様な言語に対する包括的なサポートは依然として課題なんだ。
多言語能力の課題
ほとんどの言語モデルはラテン文字を使う言語に向けられていて、非ラテン言語は無視されがちなんだ。これが、世界中の多くのユーザーにアクセスの障壁を作っているんだ。この問題は、これらの言語に対する十分なトレーニングデータが不足していることから生じていて、その結果、デザインされた言語ドメインの外ではうまく機能しないモデルができちゃう。
トレーニング中に少量の非ラテンデータを追加することで、この問題を軽減しようとする試みもあったけど、しっかりした多言語データの基盤がなければ、これらのモデルはリソースのない言語の話者には効果的じゃないことが多いんだ。
データセットの構築と多様性
リッチで多様なデータセットを作成するために、フェニックスは指示とユーザーの会話の2つの主要なソースからデータを集めたよ。これにより、両方のデータセットがさまざまな言語や文化的コンテキストを反映するようになるんだ。
収集された指示は、既存のデータセットと新たに生成されたコンテンツの組み合わせから来ることができて、それが他の言語に翻訳されることでデータセットのリーチが広がるんだ。一方で、ユーザーの会話はモデルの会話能力を洗練させるために貴重なリソースを提供しているよ。
トレーニングとパフォーマンス評価
フェニックスのトレーニングプロセスは、収集されたデータから効果的に学べるように特定のガイドラインやプロトコルを含んでる。モデルは広く利用可能なプログラミングツールを使って実装されていて、トレーニングデータがどのように構成されるかに慎重な注意が払われてるんだ。
パフォーマンス評価には、自動評価と人間のレビューの両方が含まれていて、モデルが質問にどれだけうまく応答できるか、会話に参加できるかを判断するんだ。
最後の考え
フェニックスプロジェクトは、高度なAIツールをより広いオーディエンスに提供するための重要なステップを示してる。多言語能力とオープンソース開発に焦点を当てることで、AI技術に対するより包括的な環境を作ることを目指してるんだ。
すべての言語を話す人たちにAIモデルを提供することは、みんなが人工知能の進歩から利益を得る機会を持つために不可欠なんだ。このプロジェクトは、世界中の研究者や開発者に参加を呼びかけて、協力と革新を促進することを目指してるよ。
タイトル: Phoenix: Democratizing ChatGPT across Languages
概要: This paper presents our efforts to democratize ChatGPT across language. We release a large language model "Phoenix", achieving competitive performance among open-source English and Chinese models while excelling in languages with limited resources (covering both Latin and non-Latin languages). We believe this work will be beneficial to make ChatGPT more accessible, especially in countries where people cannot use ChatGPT due to restrictions from OpenAI or local goverments. Our data, code, and models are available at https://github.com/FreedomIntelligence/LLMZoo.
著者: Zhihong Chen, Feng Jiang, Junying Chen, Tiannan Wang, Fei Yu, Guiming Chen, Hongbo Zhang, Juhao Liang, Chen Zhang, Zhiyi Zhang, Jianquan Li, Xiang Wan, Benyou Wang, Haizhou Li
最終更新: 2023-04-20 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.10453
ソースPDF: https://arxiv.org/pdf/2304.10453
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://futureoflife.org/open-letter/pause-giant-ai-experiments/
- https://yiyan.baidu.com/
- https://tongyi.aliyun.com/
- https://github.com/THUDM/ChatGLM-6B
- https://huggingface.co/databricks/dolly-v1-6b
- https://guanaco-model.github.io/
- https://bair.berkeley.edu/blog/2023/04/03/koala/
- https://github.com/FreedomIntelligence/LLMZoo
- https://en.wikipedia.org/wiki/List_of_languages_by_total_number_of_speakers
- https://sharegpt.com/
- https://huggingface.co/datasets/philschmid/sharegpt-raw
- https://en.wikipedia.org/wiki/List_of_ISO_639-1_codes
- https://github.com/huggingface/transformers
- https://i.imgur.com/2fF3Xlh.png
- https://10.26.1.135:7860/