APIを使うモデルを評価するための新しいベンチマーク

ネストされたAPIコールを使った大規模言語モデルの新しい評価方法。

2025-06-17T11:46:18+00:00 ― 1 分で読む

オリジナルソース
参照リンク

大規模言語モデル（LLM）は、現実の複雑なタスクを解決するための重要なツールになってるんだ。これらのモデルは、ソフトウェアエージェントがツールやAPIを使ってタスクを計画・実行することを可能にするんだ。目標はユーザーのリクエストに効果的に応えることだよ。

より良い評価の必要性

今のテストは、LLMが単一のAPIコールをどれだけうまく扱えるかに焦点を当ててるけど、複数のコールを組み合わせるときの複雑さを見逃してるんだ。次のAPIのために一つのAPIの出力が必要な場合もあるからね。このギャップを埋めるために、ネストされたAPIコールのパフォーマンスを評価する新しいベンチマークが作られたんだ。このベンチマークには300の例が含まれていて、実行可能なものと実行不可能なものに分かれてる。実行可能なものは実際のAPIを使って実行できるけど、実行不可能なものはLLMが生成したデータから構成されていて、実行用ではないんだ。

API使用に必要なタスク

LLMがAPIを正しく使用するためには、主に3つのタスクをこなす必要があるんだ：

API検出：リストからどのAPIを使うかを特定すること。
スロット埋め：選ばれたAPIが必要とするパラメータに正しい値を埋めること。
シーケンシング：タスクを完了するためにAPIコールを正しい順番に整えること。

この中で、シーケンシングは他の2つのタスクを組み合わせるから、しばしば一番難しいんだ。

現在のデータセットの問題

APIの能力をテストするための既存データセットは、シーケンシングを独立したAPIコールだけで構成されているかのように扱うことが多いんだ。実際には、たくさんのタスクはネストされたコールのシリーズを必要とするから、1つのAPIの結果を次の入力に使わなきゃいけないんだ。これは通常評価される単純なケースとは違うよ。

新しいベンチマークの作成

新しいベンチマークは、モデルがネストされたAPIコールをどれだけうまく扱えるかを特に見ているんだ。300の高品質な例が実行可能と実行不可能なカテゴリーに分けられている。実行可能な例はRapidAPIから得た実際のAPIから来ていて、実行不可能な例は異なるアプローチで生成されてるんだ。

ネストされたAPIコールの例

ネストされたシーケンスの例は、2つの都市間の時間差を確認することかもしれない。最初のステップはそれぞれの都市のタイムゾーンを取得し、その情報に基づいて差を計算することだ。このプロセスでは、次のステップを知らせるために1つのAPIコールを実行する必要があるんだ。

データ収集と構造

データセット内の各例は、質問とそれに対応するAPIコールのシーケンスから成り立っていて、JSONフォーマットで表現されてる。それぞれのAPIコールには名前と必要なパラメータが含まれてる。データセットは、どの出力がどのコールに属するかを追跡するためにユニークな変数名を割り当ててるんだ。

実行可能と実行不可能な例

実行可能なAPI：これらは実際のソースから来ていて、タスクを実行する方法の詳細が含まれてる。質問と答えのペアに丁寧に整理されていて、ネストされたAPIコールを通じてのみ答えが得られるようになってる。
実行不可能なAPI：これらは既存のデータセットと追加の合成データを使って作られてる。プログラムを使って正しいフォーマットに従った例を生成しているけど、対応する実行可能なAPIはないんだ。

モデルの評価

このベンチマークで様々なLLMのパフォーマンスをテストするために、いくつかの広く使われているモデルを評価してる。モデルはワンショットとスリーショットの戦略でテストされていて、一つか三つの例を提供して反応を導いてるんだ。

評価は3つの主要な指標に焦点を当ててる：

部分シーケンス一致：予測されたAPIコール（パラメータを含む）が正しいシーケンスにどれだけ一致するかをチェックする。
完全シーケンス一致：予測されたシーケンス全体が正しい答えと一致するかをチェックする。
API実行合格率：APIが正しく順番に実行できるかを測る。

実験結果からの発見

初期結果を見ると、ほとんどのモデルがネストされたAPIタスクで困難を感じていることがわかった。モデルは通常、3つの例を使ったときにより良いパフォーマンスを発揮するけど、正しいシーケンスを生成するために必要な重要な詳細を見逃すことが多いんだ。

例えば、モデルがレストラン検索を予測したけど、予約時間を含めるのを忘れたら、完全一致のスコアが低くなる。たとえ部分的に正しいとしても、どれか一つの詳細が欠けていると全体のスコアが低くなるかもしれない。

特定された課題

テスト中にいくつかの主要な課題が見られたよ：

データ型一致：APIの仕様は各パラメータのデータ型に慎重に注意を払う必要がある。モデルが不正確な型を生成すると、実行時にエラーが起こる。
変数割り当て：並行して行われるAPIコールの別々の出力を追跡するのはややこしい。モデルは混乱を避けるために提供された変数名を正しく従わなきゃいけない。
暗黙のAPIコール：時々、APIコールはユーザーのクエリに直接言及されずに行われる必要がある。モデルは受け取った入力に基づいて、いつそのようなコールが必要かを正確に特定しなきゃいけないんだ。

結論

この新しいベンチマークの導入は、LLMが複雑なAPI機能呼び出しを扱う能力を評価するための厳格な方法を提供するんだ。初期の結果は、既存のモデルがこれらのタスクにおいて短所があることを示していて、改善の余地があることを明らかにしてる。

このデータセットを公開することで、API機能呼び出しに関するさらなる研究と開発を促進し、最終的には現実の問題を効果的に解決できるより有能なモデルに繋がることを目指しているんだ。

APIを使うモデルを評価するための新しいベンチマーク

ネストされたAPIコールを使った大規模言語モデルの新しい評価方法。

#より良い評価の必要性

#API使用に必要なタスク

#現在のデータセットの問題

#新しいベンチマークの作成

#ネストされたAPIコールの例

#データ収集と構造

#実行可能と実行不可能な例

#モデルの評価

#実験結果からの発見

#特定された課題

#結論

参照リンク

参照トピック