GPUパフォーマンスにおける大規模言語モデルの評価

オリジナルソース
参照リンク

ChatGPTが2022年末に登場して以来、大規模言語モデル（LLM）は注目を集めてるよね。特にオープンソースコミュニティでは、多くのモデルが誰でも使えるようになってる。ただ、これらのモデルをセットアップするために何が必要か、パフォーマンスを事前に評価する方法を知らない人も多い。

そこで、ボルドーの研究センターでテストが行われたんだ。この記事では、使用されるGPUのタイプに基づいて、いろいろなモデルのパフォーマンスを比較してる。主にMistralとLLaMaの二つのモデルに焦点を当ててて、特定のPythonライブラリを使ってこれらのモデルの動作を改善してる。

この分析から得られた結果は、LLMを導入したいプライベートや公共の組織が、自分たちのハードウェアに基づいて選択肢を評価するのに役立つよ。この研究は、さまざまな分野で大規模言語モデルの使用を広げるサポートとなる。

ChatGPTが公開された後、多くの民間企業がこれらのモデルを基にしたサービスを迅速に提供し始めたけど、これらのモデルをトレーニングしたり使ったりするのは簡単ではない。強力なコンピュータと高品質なデータが必要なんだ。例えば、ある大手テック企業は、モデルをトレーニングするために高性能なGPUを大量に購入したばかりだよ。

いくつかの企業は、この技術を使って競争優位を得る可能性に目を向け始めた。これにより、情報や認識の形成に大きな影響を持つようになり、政府に対してこれらのモデルを規制するよう求めてる。彼らの提案には、計算能力に基づいてトレーニングを制限することや、GPUリソースの政府による監視を求めるものが含まれてる。

このツールを使う力が少数の強力な企業の手にだけ集中しないようにすることが大事だよね。これらの企業は、モデルのバイアスを操作して公共の意見に影響を与える可能性があるからさ。モデルをより透明にすること、例えばデータやモデルの重みを共有することは、独立した確認ができるようにするために重要なんだ。多くの会社はこのアイデアに抵抗してるけど、MetaやMistralみたいにオープンウェイトモデルに投資して、修正したバージョンを無料で共有してるところもある。

これらの取り組みによって、公共と民間のいろんなグループが今、強力なモデルを使いながら、自分たちのデータをコントロールできるようになってきた。ただ、これらのモデルが利用可能になったからといって、誰でも簡単に使えるわけではないんだ。特に多くのユーザー向けに導入するのは複雑で、1人用にモデルをセットアップするのは簡単でも、何人も同時に使えるようにするのはかなり挑戦的だよ。

研究の主な目的の一つは、ChatGPTのような専有の言語モデルを学生や研究者が使う際のセキュリティや機密性の懸念を調べることだった。多くの学生が、ライティング、プログラミング、校正、ブレインストーミングなどのタスクにこれらのツールを使ってる。

専有の解決策を使うことの懸念は、プライバシーを必ずしも守らないことと、企業がデータを商業的利益や産業スパイに利用する可能性があることだよね。これは、ボルドーのような研究センターにとって重要な問題で、彼らは研究の機密性を確保する必要があるから。

その結果、研究機関はデジタルツールのコントロールを維持するために代替の解決策を見つけることが重要だよね。さらに、この技術がますます重要になる中、もっと多くの研究者や学生がLLMを使いたがってる。例えば、データと対話するためにモデルを使うことはビジネスでも一般的な手法で、学生や研究者に提供する面白いサービスになり得る。

GPUにLLMを導入するには、LinuxやPythonに慣れているなど、ソフトウェア開発に関する一定の知識が必要だよ。Transformersの仕組みを知っていると便利だけど、必須ではない。必要なスキルには、ソフトウェアの更新、Pythonのインストール、特定のニーズに合ったモデルの選定が含まれる。

テストは、NVIDIA V100とNVIDIA A100の二種類のGPUを持つ特定のコンピューティングサーバーで行われたんだ。このモデルを最適化するために使われたPythonライブラリは、事前に特定のソフトウェアをインストールする必要がある。

選ばれたライブラリの一つの利点は、複数のリクエストを同時に処理できることで、待ち時間なしでスピードアップできることだよ。ただ、ハードウェアによっては、他のオプションがうまく機能する場合もある。例えば、別のツールはNVIDIA GPUで良いパフォーマンスを発揮するし、また別のツールは特定のMacで好成績を示す。

いくつかのモデルはかなり大きくて、利用可能なハードウェアの制限のために読み込むのが難しいこともある。これに対処するための効果的な方法の一つは、モデルの重みの精度を下げること、つまり少ないビット数で保存することなんだ。わずかな精度の損失は管理可能で、ハードウェアリソースをより効率的に使用できるようにする。

この研究の目的は、異なる種類のGPUを持つサーバーが、どれだけのリクエストを同時に処理できるかを調べることだった。テストは、リクエストとプロンプトのサイズを段階的に増やして、限界に達するまで行われた。各リクエストごとに、特定のトークン数を生成するのにかかった時間や、メモリ使用量、スピードの測定を記録したよ。

特にMistralのモデルに焦点を当てたのは、そのバリエーション、人気、性能が高く、特にフランス語のようなヨーロッパの言語でのパフォーマンスが優れているから。さらに、彼らのアーキテクチャは、同時にモデルの一部だけを使うことで、計算リソースを節約することができ、エネルギーの使用も削減できる。

Metaの優れたモデルも含まれていて、サイズとパフォーマンスのバランスが良い。

いろんなモデルをテストした結果、コンテキストサイズが増えるにつれて、トークン生成にかかる時間も増加することが分かった。これは複雑性が関係してるから予想通りなんだ。ただ、リクエストが増えても、応答にかかる時間が単純に倍になるわけではなく、一定のサイズを超えると効率が落ちる。

GPUのコストはかなりかかるけど、あまりリソースを必要とせずに、ChatGPTのような専有ソリューションのローカルな代替を運用することも可能なんだ。高性能なGPUを数台使えば、大規模モデルを効果的に運用でき、専有オプションに対抗できることが分かってる。

小さなモデルもホスト可能で、特にリクエストを同時に処理するときに素晴らしいスピードを達成できる。全体として、生成されたデータからは、大きなモデルが多くのリクエストをうまく処理できる一方で、小さなモデルも驚くべき結果を出せることが示されたよ。

この記事では、利用可能なハードウェアに基づいて様々な大規模言語モデルを比較しているんだ。結果は、MistralやLLaMaのようなモデルが、特定のタイプのGPU上で効果的に使用でき、専有サービスに対して良いパフォーマンスを発揮することを示している。

これらの結論は、学術界と業界の両方にとって重要で、LLMを効果的に導入するために必要なリソースに関する洞察を提供してるんだ。デジタルツールに対する透明性とコントロールの必要性を強調していて、さまざまな組織が専有システムに頼ることなくオープンソースモデルを使用できるようにしてる。

特にオープンソースモデルを使ったLLMの導入を促すことは、依存を減らし、データのコントロールをより良くするために重要だよね。

GPUパフォーマンスにおける大規模言語モデルの評価

LLMのMistralとLLaMaを異なるGPUで比較した研究。

参照リンク

参照トピック