Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 人工知能# コンピュータ科学とゲーム理論# 機械学習

現実的な意思決定のアプローチ

この論文では、経験と学びに基づいたより良い意思決定のための実用的なフレームワークを紹介している。

― 1 分で読む


意思決定フレームワークの再意思決定フレームワークの再実用的な意思決定戦略のための新しい理論。
目次

決定を下すとき、人はしばしばすべての可能な結果を考え抜いてベストな選択を選べると思い込む。この考え方は論理的全知と呼ばれ、個人がすべての関連する事実を把握し、必要な計算を行えることを示唆している。しかし、この前提は現実的ではない。例えば、不確実な出来事に賭けたり、複雑なタスクを計画したりする際、多くの詳細を考慮することは不可能だ。

この論文では、より現実的な意思決定のアプローチについて語る。人がすべてを知っていると仮定するのではなく、繰り返し決定を下す人に焦点を当てる。すべてを知っているという考えに依存せず、経験と学習に基づいて賢い選択をする新しい合理的意思決定の理論を定義する。

論理的全知の欠陥

多くの従来の合理的意思決定理論、特にベイジアン原則に基づくものは、個人が論理的全知であるという考えに依存している。これは、彼らが自分の選択に関連するすべての論理的な命題を正確に評価できることを意味している。しかし、実際には、それを達成するのは非常に困難、あるいは不可能なことも多い。

現実のシナリオでは、個人はかなりの計算リソースを必要とする問題に直面する。例えば、長い数字の列の中で正しい桁を特定するのは、時間やリソースの制限で不可能な場合がある。また、環境が個人の行動などの情報を持っていると、これらの理論に矛盾が生じる。

意思決定の大部分は、2人以上の合理的なエージェントが相互作用する状況で起こる。ここでは、各人の選択は自分の理解だけでなく、他人がどうするかの信念にも依存する。

実用的な意思決定のアプローチ

論理的全知の限界に対処するために、私たちは有限帰納的合理性(BRIA)の理論を提案する。この理論は、すべてを知る必要なく意思決定を行うことを可能にする。

私たちは、賭けやゲームを通じて繰り返し決定を下すエージェントを考える。私たちの枠組みの下では、これらのエージェントが過去の経験に基づいて選択を行う方法を再テストし続ける必要がある。成功したアイデアが証明された場合、エージェントはその戦略をより頻繁に採用するべきだ。

学習プロセス

私たちの枠組みでは、有限合理的エージェントは、各実現可能な仮説を無限回評価するべきだと述べている。彼らは信頼性があり高い報酬を提供する仮説に固執すべきだ。私たちの理論は、このアプローチを採るエージェントが、ランダム性を評価し、期待される結果に基づいて意思決定を行うなど、役立つ特性を発展させる傾向があることを示す。

例えば、エージェントが特定の配当を保証する選択肢の連続に直面した場合、彼らはその選択肢をより頻繁に選ぶことを学ぶだろう。

エージェント間の相互作用

私たちの研究の重要な部分は、エージェントがどのように相互作用するかを理解することにある。有限合理的エージェントが、他者と競争する際に自分たちに利益をもたらす戦略に収束できることを証明する。この考え方は、囚人のジレンマのようなゲームにおける協力と似ていて、各プレイヤーが協力することで成果を改善できる。

意思決定の構造

私たちの理論の核心は、合理的意思決定のためのガイドラインだ。エージェントは、選択に関するさまざまな仮説を継続的に試す必要がある。もしある仮説がエージェントの自己評価よりも高い報酬を一貫して約束するなら、彼らはその仮説を定期的に試すことが求められる。

エージェントは、既存の選択肢とその選択から得られる報酬に基づく選択の連続として定義される。この構造は、エージェントが時間をかけて意思決定を行う方法を分析するのに役立つ。

意思決定の課題

論理的全知に基づいて意思決定を実行しようとすると、多くの複雑な課題が発生する。例えば、2つの選択肢がエージェント自身の選択に依存する場合、矛盾が生じる。簡単な例を挙げると、エージェントが2つの選択肢のうちの1つを選ぶとき、その選択によって報酬が支払われる場合、最善の選択について混乱が生じる。

私たちの研究は、意思決定における反実仮想の主張に頼ることを避ける必要性を強調している。代わりに、観察可能な行動と受け取った報酬のみに焦点を当て、選択されなかった選択肢についての仮定から生じる矛盾を回避する。

合理性基準

有限合理的エージェントを定義するための特定の基準を導入する。これには以下が含まれる:

  1. 過大評価なし:エージェントは一貫して自分の報酬を過大評価してはいけない。これにより、彼らの予測が現実とできるだけ一致することが確保される。

  2. 仮説のテスト:エージェントは、自分の評価よりも高い報酬を提供すると主張する仮説を定期的にテストする必要がある。これにより、彼らは新しい情報に柔軟で開かれた状態を保つことができる。

  3. 適応学習:合理性の枠組みでは、エージェントが自身の経験から学び、過去の選択の成功や失敗に基づいて戦略を時間とともに適応させることが求められる。

意思決定エージェントの構築

私たちの理論を実装するために、エージェントがどのように構築されるべきかを定義する。仮説に入札し、最高入札に基づいて行動を選択するアルゴリズムを導入する。このメカニズムにより、エージェントは以前のラウンドで成功が証明された仮説を優先することが保証される。

理論の予測力

私たちの枠組みは、さまざまな文脈における意思決定を理解するための堅実な基盤を提供する。基準を適用することで、エージェントは特定の意思決定問題の詳細に関係なく、最大の報酬を引き出す選択に収束することが期待できる。

アプローチの利点

BRIAを実装することで、エージェントは繰り返しの意思決定問題に効果的に適応できる。過去のパフォーマンスに基づいて戦略を学び調整し続けることで、従来の意思決定理論の限界を克服できる。

さらに、私たちのアプローチは、複数の合理的なエージェント間の戦略的相互作用を含む複雑な状況を調査する道を開く。これにより、さまざまな文脈における協力と競争の理解が深まるかもしれない。

結論

要するに、有限帰納的合理性の理論は、意思決定のためのより現実的な枠組みを提供する。知識の限界を認め、経験から学ぶことに焦点を当てることで、合理的なエージェントが複雑な意思決定環境を効果的にナビゲートできる方法を提案する。

今後の研究への影響

この論文で論じた概念は、意思決定理論、ゲーム理論、および関連分野の将来の研究の基盤として役立つ。有限合理性の理解を深めることで、私たちは意思決定のためのより良いシステムを開発し、さまざまな実践的シナリオにおけるエージェントの行動を分析できるようになる。

最後の考え

個人が無限の知識を持たないことを認識することは、有効な意思決定戦略を開発するために重要だ。有限合理性に焦点を当てることで、複雑な環境でのエージェントの行動をより正確に描写し、さまざまな応用のためのより効果的な戦略への道を開くことができる。

オリジナルソース

タイトル: A Theory of Bounded Inductive Rationality

概要: The dominant theories of rational choice assume logical omniscience. That is, they assume that when facing a decision problem, an agent can perform all relevant computations and determine the truth value of all relevant logical/mathematical claims. This assumption is unrealistic when, for example, we offer bets on remote digits of pi or when an agent faces a computationally intractable planning problem. Furthermore, the assumption of logical omniscience creates contradictions in cases where the environment can contain descriptions of the agent itself. Importantly, strategic interactions as studied in game theory are decision problems in which a rational agent is predicted by its environment (the other players). In this paper, we develop a theory of rational decision making that does not assume logical omniscience. We consider agents who repeatedly face decision problems (including ones like betting on digits of pi or games against other agents). The main contribution of this paper is to provide a sensible theory of rationality for such agents. Roughly, we require that a boundedly rational inductive agent tests each efficiently computable hypothesis infinitely often and follows those hypotheses that keep their promises of high rewards. We then prove that agents that are rational in this sense have other desirable properties. For example, they learn to value random and pseudo-random lotteries at their expected reward. Finally, we consider strategic interactions between different agents and prove a folk theorem for what strategies bounded rational inductive agents can converge to.

著者: Caspar Oesterheld, Abram Demski, Vincent Conitzer

最終更新: 2023-07-11 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2307.05068

ソースPDF: https://arxiv.org/pdf/2307.05068

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事

物理学と社会反復囚人のジレンマにおける協力の学習

この研究は、繰り返しゲームでの協力がアクティブインファレンスを通じてどのように生まれるかを探ってるんだ。

― 1 分で読む