人間の指示をロボットが理解する能力を向上させる
新しい方法がロボットが人間の指示をもっと効果的に解釈できるようにする。
― 1 分で読む
人間は時々、追加のコンテキストがないとわかりにくい指示を出すことがある。例えば、「そのドアを押さえてくれる?」って言われたら、状況からどのドアを指しているかわかる。私たちは他人の行動や目標を考慮することでこうした指示を理解するんだ。でも、どうやって機械に同じことをさせられるかな?
CLIPSのアイデア
私たちは、協力的な言語ガイド逆計画検索(CLIPS)という方法を紹介する。この方法は、ロボットが人間の指示をもっと効果的に理解して従うのを助けるために設計されている。CLIPSを使えば、ロボットはパートナーみたいに振る舞う。人間を言葉で計画を共有するプランナーとして考えるんだ。ロボットは人間の行動や言葉を解釈して、協力しながらその目標を理解する。
意思決定をする時、ロボットは人間の行動や与えられた指示から情報を使う。ベイズ推論という種類の知性を使って、不確実性を管理するんだ。もしロボットが人間の欲しいものがわからなかったら、推測を減らすための行動を取ることができるから、情報が不明瞭でも助けられる。
CLIPSの評価
私たちはCLIPSを、ドアを開けたりアイテムを取ったりするタスクで人間とロボットが協力する2つの設定でテストした。ロボットは人間の目標を理解し、どうやって手助けするかを決めなきゃいけなかった。他の方法が不明瞭な指示に苦しむ中、CLIPSは言葉と身体的な合図を効果的に組み合わせて、人間が何を必要としているかをより良く推測できた。
テストの結果、CLIPSは最近の他のモデルよりも精度と有用性で優れていることがわかった。ロボットの決定を人間の決定と比べると、CLIPSの選択は人間が選ぶものとよく一致していた。
人間のコミュニケーションを理解する
人間は言葉や行動を通じて意図を伝える。何かを頼むとき、私たちはしばしば文脈に頼って意味を明確にする。例えば、「赤い鍵を取ってくれる?」と言うと、リスナーにはどの赤い鍵のことを指しているのかがわかることを期待している。
CLIPSは、人間を行動や指示を示すプランナーとしてモデル化することで、この能力を模倣することを目指している。ロボットはこれらの行動を観察し、文脈の理解を利用してこれらの指示を正しく解釈できる。だから、指示があいまいだったり不完全だったりしても、適切に反応できるんだ。
ベイズ推論の役割
ベイズ推論は、新しい証拠に基づいて信念を更新する方法。CLIPSと組み合わせることで、ロボットは人間の目標に関する理解を新しい情報に応じて調整する。例えば、人間がドアに手を伸ばすと、ロボットはその行動を考慮して人間の目標が何かを推測する。このアプローチは重要で、ロボットが人間の行動と言葉の両方を考慮できるから。
CLIPSの動作方法
CLIPSは一連のステップを通じて機能する。まず、人間の行動を観察する。次に、話されたり書かれたりした指示を解釈する。共同計画の内蔵モデルを使って、CLIPSは人間が何を達成しようとしているのかを推測できる。さまざまな行動の確率を推定することで、CLIPSは人間が目標に到達するためにどの行動がベストかを決定する。
言語を処理する能力があるから、従来の方法よりも優れている。従来の方法は行動や言葉の指示に頼ることが多いけど、CLIPSは言語モデルを使って、ある指示が可能な計画に対してどれだけ可能性が高いかを評価するんだ。
メソッドのテスト
CLIPSを2つの異なる環境で試してみた。「ドア、鍵、宝石」というグリッドシステムと、「バーチャルホーム」という家庭シミュレーションだ。これらのシナリオでは、ロボットと人間は協力してタスクを完成させなきゃならなかった。
グリッド環境では、人間とロボットが色付きの宝石を集めるために協力したり、目標を隔てるドアを開けるのに鍵を使ったりした。ロボットの仕事は、人間が言ったことやしたことに基づいて、どの鍵を取るかを考えることだった。
家庭シミュレーションでは、夕食のテーブルを設定するような一般的な家事が含まれていた。人間が指示を出し、ロボットはその合図に基づいて具体的な行動を推測して手伝う必要があった。
実験の結果
両方の環境で、CLIPSは他の指示に従うモデルよりも優れていた。人間の目標を推測する精度が高く、より効果的な支援を提供した。ロボットの選択は、テストに参加した人間の選択と頻繁に一致していた。
結果は、CLIPSが優れたシナリオをいくつか示した:
- あいまいなリクエスト: 人間があいまいなものを頼んだとき(複数の赤い鍵がある場合に「赤い鍵を取って」と言ったときなど)、CLIPSは文脈を理解して正しいものを選んだ。
- 不完全な指示: 人間が一つのアイテムだけを頼んだが、もっと必要だった場合、CLIPSは欠けている要素を推測して行動した。
- 共同指示: 人間とロボットが一緒にタスクを実行する必要があったとき(例えば、一方がドアを開けている間に、もう一方がアイテムを取りに行くなど)、CLIPSはこれらの指示を正しく解釈して、協調的に行動できた。
制限と今後の方向性
CLIPSは良いパフォーマンスを示したが、まだ解決しなきゃいけない課題がある。例えば、潜在的な目標や行動の数が増えると、正確な推測をするのが難しくなる。今後の開発では、このデータを効率的に処理できる技術が求められる。
ロボットが推測に頼らず、明確化のための質問をする方法を実装することで、CLIPSの能力を向上させることもできる。これにより、インタラクションがより動的になり、支援の精度が改善されるだろう。
結論
CLIPSの開発は、より効果的な支援エージェントを構築するための重要なステップだ。言葉や行動を通じて人間の意図を理解することで、これらのロボットは、人々が自然にコミュニケーションし協力する方法に密接に合わせたサポートを提供できる。技術が進化すれば、これらの方法を洗練することで、人間と機械のインタラクションがスムーズになり、共同作業がより簡単で効率的になるだろう。
タイトル: Pragmatic Instruction Following and Goal Assistance via Cooperative Language-Guided Inverse Planning
概要: People often give instructions whose meaning is ambiguous without further context, expecting that their actions or goals will disambiguate their intentions. How can we build assistive agents that follow such instructions in a flexible, context-sensitive manner? This paper introduces cooperative language-guided inverse plan search (CLIPS), a Bayesian agent architecture for pragmatic instruction following and goal assistance. Our agent assists a human by modeling them as a cooperative planner who communicates joint plans to the assistant, then performs multimodal Bayesian inference over the human's goal from actions and language, using large language models (LLMs) to evaluate the likelihood of an instruction given a hypothesized plan. Given this posterior, our assistant acts to minimize expected goal achievement cost, enabling it to pragmatically follow ambiguous instructions and provide effective assistance even when uncertain about the goal. We evaluate these capabilities in two cooperative planning domains (Doors, Keys & Gems and VirtualHome), finding that CLIPS significantly outperforms GPT-4V, LLM-based literal instruction following and unimodal inverse planning in both accuracy and helpfulness, while closely matching the inferences and assistive judgments provided by human raters.
著者: Tan Zhi-Xuan, Lance Ying, Vikash Mansinghka, Joshua B. Tenenbaum
最終更新: 2024-02-27 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.17930
ソースPDF: https://arxiv.org/pdf/2402.17930
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。