Choice-75のご紹介:スクリプトにおける意思決定のための新しいデータセット
Choice-75は、詳細なシナリオを通じて言語モデルの意思決定能力をテストするんだ。
― 1 分で読む
スクリプト学習は、日常の出来事がどう起こるかを学ぶ方法だよ。これまでの研究ではスクリプトを単なる一連の出来事として見てきたけど、その中には結果を変える多くの選択肢があることを見逃してたんだ。そこで、Choice-75っていう新しいデータセットを作ったんだけど、これは知能システムが詳しいシナリオに基づいて決定を予測できるかどうかを試すものなんだ。このデータセットには75個のスクリプトと600以上のシナリオが含まれてるんだ。今の言語モデルはいいパフォーマンスを見せてるけど、特に難しいケースではまだ改善の余地があるんだ。
出来事は私たちの世界の基本的な構成要素だよ。それを理解するためには、出来事同士のつながりを見ないといけない。出来事の関係を考えるのは多くの分野の共同作業で、時間の使い方や、組織、スクリプトを生成することに焦点を合わせているんだ。これらのタスクは、つながりがはっきりしないことが多く、常識が必要だから難しいんだ。
スクリプト学習は、ルーチンな出来事がどう展開するかを研究する重要な分野で、人間中心の視点を提供してくれるんだ。スクリプトのアイデアは昔からあって、研究者はストーリー、ニュースイベント、指示書など、スクリプト学習の多くの側面を調査してきたんだ。これらの研究は、スクリプト学習がより良い知能システムを作るのに役立つことを示しているんだ。
でも、過去の研究のほとんどはスクリプトを単調な一連の出来事として扱ってきた。実生活では、スクリプトには次の出来事が異なる方法で起こる多くの道があるんだ。普通は、どの道を選ぶかは人間が決めるんだ。これまで、知能システムがこの意思決定プロセスをモデル化するためのベンチマークはなかったんだ。だから、シナリオが与えられたとき、知能システムが二つの選択肢のうちのどちらが良いかを決定するタスクを定義して探求することにしたんだ。
簡単な例を挙げると、誰かが砂漠を見に行くための飛行機のチケットを買いたいとするじゃん?その人は大きな街へのチケットを買ってから砂漠まで電車に乗るか、砂漠のすぐ隣にある小さな街へのチケットを買うかの二択があるんだ。もしその大きな街から砂漠への電車がその時に無かったら、小さな街へのチケットを買う方がもっと理にかなってるよね。
Choice-75はこの意思決定タスクを目的とした初めてのデータセットで、75個の例が含まれていて、各例には一つの目標があるんだ。それに、600以上のシナリオも集めて、難易度を評価して、最良の選択肢をリストアップしたんだ。データ収集の間には、人間のフィードバックを取り入れた方法を使ってチャレンジングな例を作ったよ。
このデータセットをテストするために、高度な言語モデルを使ったんだ。text-davinci-003とgpt-3.5-turboっていう、ChatGPTの中核モデルだね。モデルのパフォーマンスは人間の判断で定めた難易度に一致してることがわかったよ。簡単なシナリオや中程度のシナリオではうまくいったけど、難しいシナリオでは苦戦してた。
このデータセットの基本ユニットは、目標、二つの選択肢、シナリオのリスト、そして正しい選択肢からなるタプルなんだ。選択肢は一つ目、二つ目どちらか、もしくは両方が似た結果を持つ場合は「どちらでも良い」となるんだ。たとえば、両方の選択肢が目標達成に少ししか影響を及ぼさないなら、正解は「どちらでも良い」ってことになるんだ。
私たちはデータセット作成の出発点としてproScriptを使ったんだ。proScriptには日常生活のアクションを示す6,400個のスクリプトが含まれていて、私たちの目標にとって素晴らしいソースなんだ。そこからランダムに75個の目標を選んで、それぞれの目標に対して手動で二つの実行可能な選択肢を作ったんだ。イベント推論に詳しい大学院生がその選択肢に注釈を付けて、別の学生がそれを確認したんだ。この方法で75個の目標と選択肢のタプルを収集できたんだ。それから、シナリオと正しい選択肢を手動で作成したり、人間のフィードバックを使ったりしてタプルに追加したんだ。
シナリオが全部揃ったら、それぞれの難易度を定義して評価する必要があったんだ。正しい選択をするために必要な推論ステップの数を見て、私たちのタスクの一部として複数の推論ステップが必要なシナリオを探求したよ。難易度は簡単、中程度、難しい、N/A(明確な最適選択がないシナリオ)の四つのレベルに分類したんだ。たとえば、一つの推論ステップだけが必要なシナリオは簡単に評価され、複雑な推論が必要なものはより高い難易度評価を受けるんだ。
手動シナリオ注釈
私たちが手動で作成したシナリオは短いフレーズだよ。場合によっては「大きな街から砂漠への電車のルートが見つからない」みたいな出来事を説明しているし、他の時は「接続便が嫌い」みたいに人の感情状態を説明したりしてるんだ。手動で生成したシナリオの統計も提供しているよ。
ヒューマン・イン・ザ・ループ生成
難しいシナリオを作るのが難しかったから、高品質な例を考えるために人間のフィードバック方法を使って、機械生成されたフレーズとユーザープロファイルの二つのセットのチャレンジングなシナリオを作ったんだ。まず、難しい例を集めて、それに似たシナリオを生成するために言語モデルを使うっていう流れにしたんだ。その後、生成されたシナリオを手動でレビューして有効性を確認したよ。
最初のタイプのチャレンジングなシナリオでは、一つの選択肢になるシナリオを作るように言語モデルに促して、そのシナリオから次につながる新しいシナリオを作ったんだ。二つ目のチャレンジタイプはユーザープロファイルに関連していて、モデルに含めるべき情報や避けるべき情報を提示して、一つの選択肢が他の選択肢より好ましくなるプロファイルを作ったんだ。
難易度レベルに基づく予測の実験結果
データセットの75の目標から、10の目標をデモ用にランダムに予約して、残りを評価に使ったんだ。モデルにとって最良の選択肢を予測するタスクを学習タスクとして設定したよ。目標、二つの選択肢、シナリオを言語モデルに提供して、どちらがより良い選択かを特定するように頼んだんだ。
私たちの実験では、text-davinci-003とgpt-3.5-turboの二つのモデルをテストしたよ。プロンプトをシンプルな形式とストーリー形式の二つで構成したんだ。結果は、シナリオの難易度によってパフォーマンスに明確な違いがあることを示したよ。モデルは簡単なシナリオではうまくいったけど、難しいシナリオやどちらの選択肢も有効な場合ではかなり苦戦してた。
難易度レベルと定性的エラー分析
シナリオを推論の複雑さに基づいて簡単、中程度、難しいレベルに分類したんだ。たとえば、答えが明らかな単純な状況は簡単で、多くの推論ステップが必要なものは難しいんだ。
分析を通じて、言語モデルが正しい答えと一致しない予測をした事例を特定したよ。ある場合には、遠くの街へのフライトは接続便が必要だと見抜けず、最適でない選択肢を選んでしまったんだ。
要約すると、この研究はスクリプトにおける意思決定分岐に焦点を当てた新しいタスクを紹介しているんだ。私たちは、知能モデルが人間の意思決定を模倣できるかを試すためのデータセットをまとめたんだ。そして、人間による難易度評価とモデルのパフォーマンスの間には強い相関関係があることがわかった。私たちはこのデータセットが、言語モデルが人間のように日常の意思決定を処理する能力についてのさらなる研究の基礎になることを願っているよ。
制限事項
このデータセットの明確な制限の一つは、その分布なんだ。特定のスクリプトソースから構築したので、言葉やスタイル、トピックの範囲が限られているんだ。これが異なる文脈で使われたときに、調整なしではパフォーマンスが良くない可能性があるんだ。
それに、リソースの制限からデータセットは比較的小さいんだ。このサイズはバイアスを導入する可能性があって、もう一人がその作業を確認していても、モデルのパフォーマンスに影響を及ぼすことがあるんだ。
実際のシナリオを過度に単純化する仮定もしてしまったよ。例えば、私たちはすべての目標には二つの選択肢しかないと仮定してたけど、実際には重なる選択肢がたくさんあるかもしれないんだ。
最後に、リソースの制約のために詳細なプロンプトエンジニアリングは行わなかったんだ。基本的なプロンプト形式と固定されたセットアップでモデルを使っただけで、将来的にはもっと多様なプロンプト設定を探求する余地があるんだ。
この研究は同僚のサポートと様々な組織からの資金がなければ実現できなかったよ。この研究結果は、機械が人間の意思決定を理解し模倣する方法のさらなる改善の道を開くものだと思ってる。
タイトル: Choice-75: A Dataset on Decision Branching in Script Learning
概要: Script learning studies how stereotypical events unfold, enabling machines to reason about narratives with implicit information. Previous works mostly consider a script as a linear sequence of events while ignoring the potential branches that arise due to people's circumstantial choices. We hence propose Choice-75, the first benchmark that challenges intelligent systems to make decisions given descriptive scenarios, containing 75 scripts and more than 600 scenarios. We also present preliminary results with current large language models (LLM). Although they demonstrate overall decent performance, there is still notable headroom in hard scenarios.
著者: Zhaoyi Joey Hou, Li Zhang, Chris Callison-Burch
最終更新: 2024-03-17 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.11737
ソースPDF: https://arxiv.org/pdf/2309.11737
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。