Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能# 機械学習

ツール操作のためのオープンソースAIの進展

この論文は、ツール操作におけるオープンソースLLMの課題と機会について話してるよ。

― 1 分で読む


オープンソースAI:ツールオープンソースAI:ツール操作の洞察の可能性を探る。タスク自動化におけるオープンソースLLM
目次

最近の人工知能の発展により、大規模言語モデル(LLM)が自然言語コマンドを通じてタスクを自動化するのに役立つことがわかってきた。これらのモデルはソフトウェアツールとやり取りできるため、さまざまなアプリケーションにとって貴重なものだ。この論文では、ツール操作のためのオープンソースLLMを使用する際の課題と機会について話すよ。

ツール操作の理解

ツール操作とは、ソフトウェアユーザーが目標の説明をソフトウェアが実行できる一連のアクションに翻訳する能力を指す。たとえば、ユーザーが特定のアイテムをオンラインで探すようモデルに頼むと、モデルはその検索を行うために必要なコマンドを生成して実行する。

従来、この分野の研究のほとんどはクローズドモデルに焦点を当てていて、ユーザーはそのモデルができることに制限されているため、ビジネスにとってセキュリティやデータプライバシーの懸念が生じている。

オープンソースモデルの役割

オープンソースのLLMは、クローズドモデルの制限への有望な解決策を提供してくれる。公に利用可能なため、誰でも適応や改善ができ、イノベーションやコラボレーションを促進する。ただし、ツール操作の分野では、オープンソースモデルとOpenAIのGPT-4のような独自のモデルを比較すると、パフォーマンスに大きなギャップが残っている。

ツール操作の主な課題

オープンソースのLLMを改善する方法を理解するためには、まずツール操作における課題を特定しなければならない。

API選択の問題

一つの大きな課題は、正しいAPIコマンドを選択するのが難しいことだ。オープンソースモデルは、ユーザーの目標を達成するために必要な適切なコマンドを特定できないことが多く、実行時にエラーが生じることがある。対照的に、GPT-4のようなモデルは、トレーニング中にAPI使用の知識を内部化する能力が高い。

引数入力エラー

APIが選択された後、モデルは必要な引数を入力する必要がある。オープンソースモデルは、これらの引数に対して正しい値を入力するのに苦労することが多い。この問題は、トレーニング中に利用可能な例が不足していることから来ることがあり、不正確または意味不明な入力につながることがある。

実行可能でない出力

もう一つの一般的な問題は、実行可能でない応答を生成することだ。これは、冗長すぎる言語や必要なコーディングフォーマットに従わないことを含む。ソフトウェアツールがアクションを正しく実行するためには、出力が明確で簡潔なコードである必要がある。

オープンソースモデルの強化

これらの課題に対処するために、ツール操作におけるオープンソースLLMの能力を向上させるいくつかの戦略を採用できる。

既存の技術を適応させる

LLMの文献から確立された技術を再検討し、ツール操作の特定のニーズに合わせて適応させることができる。これらの戦略は、大量の人間の監視を必要とせずに実施できるため、実用的な実装には重要だ。

モデルアラインメント

モデルアラインメントは、潜在的なAPI使用から引き出した例を使用してLLMをトレーニングすることを含む。目標とそれに対応するアクションを表すテンプレートを作成することで、モデルに利用可能なトレーニングデータを拡張できる。このデータの増加が必要な知識の内部化を助ける。

コンテキスト内デモンストレーション取得

検索強化生成技術を取り入れることで、推論時にキュレーションされたリポジトリから類似の例を選択する仕組みをLLMに追加できる。これにより、モデルは出力を生成する際に、以前の成功したアクションをデモンストレーションとして活用できる。

システムプロンプト

体系的なプロンプトを導入することで、出力の期待を定義し、モデルが実行可能なコードを生成することに集中できるようにする。この構造は、生成された応答のスタイルや形式を調整するのに役立つ。

ツール操作技術の評価

これらの技術の効果を判断するために、オンラインショッピングやデータ管理タスクのためのソフトウェアツールを操作することを含む、さまざまな実世界のアプリケーションからなるベンチマークスイートを開発した。

ベンチマークの概要

ベンチマークは、ツールを操作する際のLLMのパフォーマンスを評価するために特別に調整された多様なタスクで構成されている。各タスクは特定の目標に関連付けられており、モデルが適切なAPIコールを生成できるかが評価される。

パフォーマンスメトリクス

これらのタスクの主な評価メトリクスは成功率で、モデルが正しい実行可能なアクションを生成する頻度を反映している。このベンチマークは、オープンソースLLMの能力をリーディングクローズドモデルと定量的に比較することを可能にする。

結果と分析

ベンチマークで広範なテストを行った結果、オープンソースモデルとGPT-4の間に顕著なパフォーマンスギャップがあることがわかった。特に、オープンソースモデルは、より複雑なタスクで大幅に低い成功率を示した。

パフォーマンスの改善

提案された技術を適用することで、オープンソースLLMの成功率を大幅に向上させることができた。結果は、実用的な人間の監視を行うことで、オープンソースモデルが多くのタスクにおいてクローズドモデルに対抗できる能力に到達できることを示した。

タスクの詳細な検討

ベンチマークの各タスクは異なる複雑さのレベルで設計されており、ツール操作能力のさまざまな側面をテストする。

タスクケーススタディ

ホーム検索機能

ホーム検索タスクでは、モデルはユーザーが定義した基準に基づいてリストを取得するための一連のAPIコールを生成する必要がある。挑戦は、正しい関数コールを選択し、パラメータを正確に埋めることにある。

旅行予約機能

このタスクは、ユーザーが複数のAPIコールを通じてチケットや宿泊施設を予約しようとするため、より複雑なやり取りを伴う。異なるパラメータや関数間の関係がこのタスクをLLMにとって難しくしている。

Googleシートの操作

スプレッドシートの操作は独自の課題を持っていて、モデルがコンテキストを理解し、セルの更新やデータの並べ替えといった特定のアクションを実行する必要がある。

結論

私たちの評価からの発見は、オープンソースLLMがツール操作において重要な課題に直面している一方で、そのパフォーマンスを向上させるための効果的な戦略があることを示している。モデルアラインメント、コンテキスト内学習、体系的なプロンプトを通じて、ギャップを埋めてオープンソースモデルをクローズドモデルの代替として実現可能にできる。

これらの進展は、タスクの自動化を改善する機会を提供するだけでなく、ビジネスがAI技術を導入するためのより安全な環境を育む。 この分野での継続的な研究と開発は、さらなる可能性を開放し、ツール操作におけるオープンソースLLMの全体的な有効性を向上させる助けとなるだろう。

オリジナルソース

タイトル: On the Tool Manipulation Capability of Open-source Large Language Models

概要: Recent studies on software tool manipulation with large language models (LLMs) mostly rely on closed model APIs. The industrial adoption of these models is substantially constrained due to the security and robustness risks in exposing information to closed LLM API services. In this paper, we ask can we enhance open-source LLMs to be competitive to leading closed LLM APIs in tool manipulation, with practical amount of human supervision. By analyzing common tool manipulation failures, we first demonstrate that open-source LLMs may require training with usage examples, in-context demonstration and generation style regulation to resolve failures. These insights motivate us to revisit classical methods in LLM literature, and demonstrate that we can adapt them as model alignment with programmatic data generation, system prompts and in-context demonstration retrievers to enhance open-source LLMs for tool manipulation. To evaluate these techniques, we create the ToolBench, a tool manipulation benchmark consisting of diverse software tools for real-world tasks. We demonstrate that our techniques can boost leading open-source LLMs by up to 90% success rate, showing capabilities competitive to OpenAI GPT-4 in 4 out of 8 ToolBench tasks. We show that such enhancement typically requires about one developer day to curate data for each tool, rendering a recipe with practical amount of human supervision.

著者: Qiantong Xu, Fenglu Hong, Bo Li, Changran Hu, Zhengyu Chen, Jian Zhang

最終更新: 2023-05-25 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.16504

ソースPDF: https://arxiv.org/pdf/2305.16504

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事