ジャムバチームが高度な言語モデルを発表したよ。
新しいモデルは会話や指示のタスクにおいて高いパフォーマンスを提供するよ。
Jamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham
― 1 分で読む
Jambaチームが会話や指示に対応できる2つの大規模言語モデルを発表したよ。このモデルは、ハイブリッドトランスフォーマー・マンバっていう特別なアーキテクチャに基づいてる。いろんなタイプのモデルを組み合わせて、高効率を実現してるから、少ないメモリでたくさんのデータを扱えるんだ。
モデルのサイズと特徴
チームは2つのバージョンのモデルを紹介した:
- 94億のアクティブパラメータを持つ大型モデル。
- 12億のアクティブパラメータを持つ小型モデル。
どちらのモデルも一度に256,000トークンまで処理できるから、他のほとんどのモデルよりもすごいよ。これらのモデルを効率よく動かすための新しいマシンリソースの使い方も開発された。この方法で、8つのGPUを使ってもパフォーマンスを落とさずに動かせるんだ。
パフォーマンスと評価
テストでは、特に長いテキストの処理においてこのモデルたちはすごく良いパフォーマンスを示した。いろんな学術的な基準やチャットボットの評価でも、他の類似モデルを上回って、指示に対する応答能力や操作中のスピードが高かったよ。
これらのモデルは一般に公開されていて、オープンモデルライセンスの下で使えるから、誰でも自分の仕事に使える。
アーキテクチャの概要
このモデルは、トランスフォーマー層とマンバ層、さらには専門家のモジュールを組み合わせてる。この構成のおかげで、スピード、メモリ使用量、応答の質をバランスよく保てるんだ。
Jambaチームは、これらの異なる要素を組み合わせたことで、大規模でもより良いパフォーマンスが得られることを発見した。大型モデルは8つのGPUを搭載した1台のマシンに収まるから、システムをオーバーロードせずに本格的な処理能力を求めるユーザーにとって実用的なんだ。
サービングと量子化技術
チームは他の人がこのモデルを効果的に使えるように、いくつかのインサイトを共有してる。一つの大きなポイントは、モデルの重みを扱う新しい技術で、迅速かつ効率的にモデルが動くように開発された。この技術で、重要なデータをコンパクトに保存できるから、モデルの操作時に時間とリソースを節約できるんだ。
新しいモデルの大きな特徴の一つは、品質を落とさずに処理されるデータサイズを削減する方法だ。Jambaチームは、モデル内のほとんどのデータが特定の層から来ていることがわかり、モデルが情報を保存し処理する方法を効率化できる機会が見つかった。
学習プロセス
モデルのトレーニングは、効果的に学べるようにいくつかの段階を経て行われた。まず、ウェブページや本、記事など、さまざまなタイプのテキストから情報を集めるプロセスが始まった。これは、モデルにバランスの取れた知識ベースを提供するためだった。
事前トレーニングの後、モデルは特定の会話スキルを学び、指示に従う段階を経た。このステップでは、高品質な例を使って、モデルが会話でうまく応答し、指示に正確に従えるようにしたんだ。
データ生成方法
トレーニングを改善するために、Jambaチームは実世界の状況を模倣したさまざまなタイプの合成データを生成したよ。例えば、ドキュメントに基づいた質問と答えのペアを作って、モデルが情報を見つけたり使ったりするのを学べるようにしたんだ。さらに、特定の指示を使ってタスクを行う際にモデルがどう役立つかも調べた。
多言語能力
この新しいモデルの面白い点は、多言語を扱える能力だ。主に英語データでトレーニングされたけど、他の言語でもそこそこうまくいくんだ。トレーニング中に多言語データが混ざってたから、いろんな言語で理解しやすくなったみたい。
長文処理
両方のモデルは、大きな文脈を理解する必要があるタスクに特に強い。長いテキストの処理能力を評価するためのタスクでテストされて、長い情報の列をうまく管理できることを示した。これは、複雑な会話や指示に従う必要があるアプリケーションにとって重要なんだ。
安全性と整合性
チームは、モデルが安全に動作し、顧客の期待に応えるように努力してる。ユーザーがモデルの動作や相互作用をコントロールできるガイドラインを開発した。この安全性への配慮は、AIの分野では重要で、技術が期待通りに動作することを保証してるんだ。
また、顧客や規制当局との対話との責任ある開発を強調した原則のセットも作成した。これにより、信頼を築き、モデルがユーザーに役立つことを目指しているんだ。
結論
要するに、Jambaチームの新しい言語モデルは、会話や指示に対応するための効果的なAIツールを作る上で大きな一歩を踏み出したってこと。大きな文脈を扱う能力、多言語サポート、高パフォーマンスを持ってるから、いろんなアプリケーションに意味のある影響を与えることができる。
このモデルは今、一般に使用可能で、他の人がこの革新的な技術を探求し、発展させることができる。AI駆動のソリューションが日常のタスクやユニークな課題にさらなる可能性を広げるんだ。
タイトル: Jamba-1.5: Hybrid Transformer-Mamba Models at Scale
概要: We present Jamba-1.5, new instruction-tuned large language models based on our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts architecture, providing high throughput and low memory usage across context lengths, while retaining the same or better quality as Transformer models. We release two model sizes: Jamba-1.5-Large, with 94B active parameters, and Jamba-1.5-Mini, with 12B active parameters. Both models are fine-tuned for a variety of conversational and instruction-following capabilties, and have an effective context length of 256K tokens, the largest amongst open-weight models. To support cost-effective inference, we introduce ExpertsInt8, a novel quantization technique that allows fitting Jamba-1.5-Large on a machine with 8 80GB GPUs when processing 256K-token contexts without loss of quality. When evaluated on a battery of academic and chatbot benchmarks, Jamba-1.5 models achieve excellent results while providing high throughput and outperforming other open-weight models on long-context benchmarks. The model weights for both sizes are publicly available under the Jamba Open Model License and we release ExpertsInt8 as open source.
著者: Jamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham
最終更新: 2024-08-22 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2408.12570
ソースPDF: https://arxiv.org/pdf/2408.12570
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。