Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス # 計算と言語 # 人工知能 # 機械学習

顧客サポートにおけるAIエージェントの評価

カスタマーサポートでのAIエージェント評価のための新しいテスト生成法。

Samuel Arcadinho, David Aparicio, Mariana Almeida

― 1 分で読む


カスタマーサポートテスティ カスタマーサポートテスティ ングにおけるAIエージェン 方法。 AIエージェントの効果をテストする新しい
目次

顧客サポートにおける高度な言語モデル(LLM)の利用が増えているんだ。これらのモデルは、リアルな会話をするAIエージェントを作り出したり、特定の手順に従ったり、ユーザーを助けるためにさまざまな機能を使ったりできるんだ。でも、これらのエージェントをテストするのは簡単じゃなくて、会話は幅広く変わることがあるし、既存のテストのほとんどは単純なやり取りしか評価してないから。

この記事では、LLMを会話エージェントとして評価するための新しいテスト作成法を紹介するよ。私たちのアプローチは、ユーザーが定義した手順を元にして、多様でリアルなテストを生成するんだ。そして、AIエージェントが顧客サポートシナリオでどれだけうまく機能できるかを評価するために設計された新しいデータセット「ALMITA」も紹介するよ。

AIエージェントの評価の課題

LLMはさまざまなタスクで素晴らしい可能性を示してきたけど、インタラクティブなエージェントとしての効果はまだ不確かなんだ。今のところ、多くのテストは特定のタスクに焦点を当てていて、実際の会話でエージェントがやるべきことを完全には代表していない。顧客サポートでは、効果的なAIエージェントは、厳格な手順に従いながら、さまざまな種類の問い合わせやリクエストを扱う必要があるんだ。

AIがこれらの手順を遵守し、ユーザーからの操作を扱う能力を測ることが重要なんだ。それをするには、これらのエージェントの強みと弱みを明らかにできる徹底的な評価データセットが必要だよ。

自動テスト生成パイプライン

私たちのテスト生成方法は、多様なシナリオを作成するためにデザインされたいくつかのステップから成っているよ。一連のプロセスは、「注文のキャンセル」みたいな問題を定義することから始まる。その後、AIがその問題にどう応答すべきかを示す手順を生成するんだ。

  1. インテント生成: 手順生成の基礎になる具体的なインテントを作るよ。
  2. 手順生成: 各インテントに対して、エージェントが従うべきステップを具体的に示す詳細な手順を開発する。
  3. API抽出: エージェントがユーザーを助けるために使用できる関連のアプリケーションプログラミングインタフェース(API)を特定するよ。
  4. フローグラフ生成: 手順とAPIに基づいて、エージェントの行動の論理的な流れを示すフローチャートを作成する。
  5. 会話グラフ生成: フローチャートを使って、対話のセットアップを模倣する会話グラフに変換する。
  6. ノイズ生成: リアルなやり取りをシミュレートするために、会話グラフに予期しない要素や行動を追加する。
  7. パスサンプリング: 会話グラフからランダムにパスをサンプリングして、異なる会話シナリオを作成する。
  8. 会話生成: 最後に、サンプリングしたパスに基づいて合成会話を生成する。

最終的な出力は、さまざまな状況におけるAIエージェントのパフォーマンスを評価するためのテストで構成されているよ。

ALMITAデータセット

私たちはALMITAデータセットを作成したんだ。これは顧客サポートにおけるAIエージェントを評価するためのベンチマークとして機能するよ。このデータセットは多様なやり取りを含んでいて、包括的なテストができるようになってる。

ALMITAは、LLMを使ってインテントを生成し、それに対応する手順を作成することで開発されたんだ。これらの手順は品質と特定のルールへの準拠を評価された。結果として得られたデータセットには、さまざまなAIエージェントのパフォーマンスを測定するために使える合成テストのコレクションが含まれているよ。

言語モデルの評価

ALMITAデータセットを使って、いくつかの言語モデルをテストして、顧客サポートエージェントとしての効果を測ったんだ。評価した主な次元は次の通り。

  • 応答再現率: 適切な時にエージェントが正しく応答できる能力。
  • 正しい応答: エージェントの応答が、応答すべき時に期待される返答と一致しているかどうか。
  • API再現率: エージェントがAPIを呼ぶべき時を正しく認識する精度。
  • 正しいAPI: エージェントが呼び出したAPIの正確さ。
  • 正しいAPIパラメータ: エージェントがAPI呼び出しに対して正しいパラメータを使用しているかどうか。
  • テストの正確性: テスト全体の正確性。

結果によれば、テストされたモデルは孤立したやり取りではうまく機能しているけど、長い会話を通じて一貫性を保つのに苦労していることが分かった。これは、LLMが実際の顧客サポートの設定で効果的に機能するためにはさらなる開発が必要だということを示唆しているね。

中間構造の重要性

フローグラフや会話グラフのような中間的なグラフ構造を生成することは、生成された会話の質を大幅に向上させるんだ。これらの構造は、AIが一貫性を保ちながら、目の前のタスクに関連するように導いてくれる。

中間グラフを使うことで、生成された会話の正確性を向上させて、会話パスの徹底的な探求を確保できる。この構造化されたアプローチは、AIの強靭性を評価するために予期しないシナリオの導入も可能にするよ。

制限事項と今後の方向性

私たちの評価にはいくつかの制限があるよ。一つは、生成されたテストの多様性を定量的に評価しなかったこと。テストの正確性を確認するために人間の注釈を行ったけど、注釈者の数は少なかった。

さらに、テスト生成に単一のモデルを使用することに焦点を当てていた。複数のモデルで生成パイプラインを探ることで、より豊かなデータセットが得られるかもしれない。今後は、AI応答のエラーの重大性のさまざまな程度を考慮したアプローチを洗練させ、会話の正確性に関するより微妙な指標を探求する計画だよ。

結論

LLMが顧客サポートにますます統合されていく中で、会話エージェントとしてのパフォーマンスを評価するための堅牢な方法を開発することが重要なんだ。私たちの自動テスト生成パイプラインとALMITAデータセットは、AIエージェントの能力を評価するための包括的なフレームワークを提供している。この取り組みは、今後の研究や開発を導くことができて、実際のシナリオでのAIの効果を高める手助けになるかもしれないね。

オリジナルソース

タイトル: Automated test generation to evaluate tool-augmented LLMs as conversational AI agents

概要: Tool-augmented LLMs are a promising approach to create AI agents that can have realistic conversations, follow procedures, and call appropriate functions. However, evaluating them is challenging due to the diversity of possible conversations, and existing datasets focus only on single interactions and function-calling. We present a test generation pipeline to evaluate LLMs as conversational AI agents. Our framework uses LLMs to generate diverse tests grounded on user-defined procedures. For that, we use intermediate graphs to limit the LLM test generator's tendency to hallucinate content that is not grounded on input procedures, and enforces high coverage of the possible conversations. Additionally, we put forward ALMITA, a manually curated dataset for evaluating AI agents in customer support, and use it to evaluate existing LLMs. Our results show that while tool-augmented LLMs perform well in single interactions, they often struggle to handle complete conversations. While our focus is on customer support, our method is general and capable of AI agents for different domains.

著者: Samuel Arcadinho, David Aparicio, Mariana Almeida

最終更新: 2024-10-10 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2409.15934

ソースPDF: https://arxiv.org/pdf/2409.15934

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事