Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能

ゴリラ:APIインタラクションの新しいツール

ゴリラはLLMのAPIコール生成能力を向上させて、パフォーマンスを良くするよ。

― 1 分で読む


ゴリラがAPIコールを強化ゴリラがAPIコールを強化したよなツール。正確なAPIインタラクションのための強力
目次

ゴリラは、大きな言語モデル(LLM)がAPIともっとうまくやりとりできるように作られた新しいツールだよ。LLMはテキストの理解や生成で大きな進展を遂げたけど、APIをうまく使うのには苦労してる。APIは、異なるソフトウェアプログラムがコミュニケーションをとって一緒に働くための指示みたいなもので、例えば、フライトを予約するアプリを使う時、そのアプリは便の空き状況を確認したり、チケットを予約したり、確認を送信するためにいくつかのAPIを使ってるんだ。ゴリラは、LLMがこれらのAPI呼び出しを生成する方法を改善して、もっと正確にし、間違いが起こる可能性を減らそうとしているんだ。

現在のLLMの課題

最近の進展にもかかわらず、GPT-4のようなLLMにはまだ限界がある。固定された情報セットに依存していて、知識を簡単に更新できないんだ。世界で何かが変わると、これらのモデルはしばしば再訓練が必要になって、新しい情報に追いつくのが大変だ。頻繁に変わる情報に頼るアプリケーション、特にAPIには問題になることがある。LLMがツールを使ったり、最新の情報にアクセスできるようにすることで、リアルタイムデータが必要なタスクをよりうまくやれるようになるんだ。

ゴリラの違い

ゴリラはLLaMAというモデルを基にしていて、API呼び出しをよりうまく扱えるように微調整されてる。これは、LLMがAPIの指示を生成する時によく犯すエラーを減らすために特に設計されてるんだ。例えば、どのAPIを使うべきかを誤って識別したり、呼び出しのために不正確なパラメーターを生成したりすることが多いんだけど、ゴリラはこれらの問題に対処して、APIドキュメントが進化する中での変化に素早く適応する能力を見せてるんだ。

APIBench: 評価ツール

ゴリラの能力を測るために、チームはAPIBenchというデータセットを作った。これは、HuggingFaceやPyTorch、TensorFlowなどの人気のあるAPIを含んでるんだ。このデータセットを使うことで、既存のモデルと比べてゴリラがどれだけ正確なAPI呼び出しを生成できるかを評価できるんだ。

ゴリラの動作

ゴリラは、微調整されたLLaMAと文書検索システムを組み合わせて動作する。このおかげで、ユーザーが質問をすると、ゴリラはリアルタイムで最も関連性の高いAPIドキュメントを探せるんだ。これにより、API呼び出しを生成するだけでなく、呼び出しが最新の情報に基づいていることも確認できる。テストでは、ゴリラは他のモデルよりも正確性が高く、間違いを減らすことができたんだ。

モデルの訓練

チームは、多くのAPI呼び出しを集めて、ゴリラを訓練するための有用な例を作った。いくつかの重要なソースを調査して、選ばれたAPIが良いドキュメントを持っていることを確認したんだ。この情報を集めた後、彼らは数千の指示-APIペアを含む包括的なデータセットを作成した。

訓練中、ゴリラはユーザーのリクエストに基づいて特定の指示を生成することを学んだ。APIを呼び出す方法だけでなく、モデルのサイズや必要な精度など、関わる制約についても理解するように訓練されたんだ。

幻覚問題への対処

LLMの一つの大きな問題は「幻覚」を起こす傾向があることで、つまり、不正確または想像上のAPI呼び出しを生成することなんだ。ゴリラはこの分野で大きな改善を遂げた。広範なAPIの選択肢を利用する能力を微調整することで、正しいAPI呼び出しと不正確な呼び出しをよりよく区別できるようになったんだ。これにより、幻覚エラーが減って、ユーザーにとって信頼性が高くなった。

コンテキストの重要性

ゴリラのデザインのもう一つの重要な側面は、コンテキストを効果的に使う能力だ。ユーザーがプロンプトを与えると、ゴリラはそのプロンプトに関連する最新のドキュメントを取得できるんだ。この適応的なアプローチにより、現在の情報に基づいて正確に応答できるから、実際のアプリケーションでより役立つんだ。

テストと性能の比較

ゴリラの効果を評価するために、チームはGPT-4やその前のモデルと比べて性能を比較した。さまざまな設定でテストを行って、検索システムの有無にかかわらず、各モデルが異なるプロンプトにどう反応するかを分析したんだ。結果は、ゴリラが常に他のモデルよりも正確性と関連性で優れていて、幻覚を最小限に抑えたことを示していた。

変化への適応

APIドキュメントの変化に適応するゴリラの能力は、重要な強みの一つなんだ。APIは頻繁に変わることがあるから、ユーザーはゴリラが正確な情報を提供してくれることを信頼できる。この適応性は他のモデルにはあまり見られない特性で、新しいドキュメントに追いつくのに苦労してることが多いんだ。

実世界のアプリケーション

ゴリラには多くのアプリケーションの可能性があるんだ。例えば、開発者がシームレスなAPI統合を必要とするアプリケーションを作成するのを手伝うことができる。以前は多くのステップが必要だったタスク、たとえば旅行を予約したりイベントを調整したりすることが、もっと簡単になる可能性がある。ユーザーはゴリラにこれらのアクションを実行するように頼むだけで、必要なAPI呼び出しをバックグラウンドで処理してくれるんだ。

ユーザーフレンドリーなインタラクション

ゴリラの目標の一つは、ユーザーにとってのインタラクションを簡単にすることなんだ。自然言語のプロンプトを使えるようにすることで、ユーザーは会話のようにリクエストを入力できる。検索システムと適応機能により、ユーザーは特定のAPIやその機能を知らなくても大丈夫なんだ。代わりに、達成したいことに集中できて、ゴリラが技術的な詳細を処理してくれる。

現在の限界

ゴリラには期待が持てる一方で、改善が必要な分野もまだある。モデルは取得したAPIドキュメントの質に大きく依存してる。もしドキュメントが不十分だったり古かったりすると、回答に不正確さが生じる可能性がある。また、ゴリラはまだ発展途中のモデルだから、最大のポテンシャルを引き出すためにはさらなるテストや微調整が必要なんだ。

将来の方向性

将来を見据えると、ゴリラを強化するチャンスはたくさんあるんだ。将来のバージョンでは、より多様なAPIのサポートを強化したり、他のプログラミング言語にまで拡張したりすることが考えられる。さらに、ドキュメントのエラーに対してモデルをより強固にする方法や、より直感的な応答を提供する方法を探る研究も行われるかもしれない。

結論

ゴリラは、大きな言語モデルの分野において、APIとのインタラクションの改善に向けてのエキサイティングな一歩を示してる。LLMがAPI呼び出しを生成し、変化に適応する方法を改善することで、さまざまな領域でのアプリケーションを強化する可能性があるんだ。モデルが発展し続けることで、テクノロジーとのインタラクションがよりシームレスでユーザーフレンドリーになり、ユーザーや開発者に新たな可能性を開いてくれることを約束してるんだ。

オリジナルソース

タイトル: Gorilla: Large Language Model Connected with Massive APIs

概要: Large Language Models (LLMs) have seen an impressive wave of advances recently, with models now excelling in a variety of tasks, such as mathematical reasoning and program synthesis. However, their potential to effectively use tools via API calls remains unfulfilled. This is a challenging task even for today's state-of-the-art LLMs such as GPT-4, largely due to their inability to generate accurate input arguments and their tendency to hallucinate the wrong usage of an API call. We release Gorilla, a finetuned LLaMA-based model that surpasses the performance of GPT-4 on writing API calls. When combined with a document retriever, Gorilla demonstrates a strong capability to adapt to test-time document changes, enabling flexible user updates or version changes. It also substantially mitigates the issue of hallucination, commonly encountered when prompting LLMs directly. To evaluate the model's ability, we introduce APIBench, a comprehensive dataset consisting of HuggingFace, TorchHub, and TensorHub APIs. The successful integration of the retrieval system with Gorilla demonstrates the potential for LLMs to use tools more accurately, keep up with frequently updated documentation, and consequently increase the reliability and applicability of their outputs. Gorilla's code, model, data, and demo are available at https://gorilla.cs.berkeley.edu

著者: Shishir G. Patil, Tianjun Zhang, Xin Wang, Joseph E. Gonzalez

最終更新: 2023-05-24 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.15334

ソースPDF: https://arxiv.org/pdf/2305.15334

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事