「外的報酬」とはどういう意味ですか?
目次
外的報酬は、学習システムのエージェントに与えられる外部の信号で、ポイント、成績、スコアの形で、特定の行動を促すために使われるんだ。エージェントが特定の目標を達成するのを導くために、行動に基づいたフィードバックを提供するのが役割だよ。例えば、エージェントがタスクをうまく終えたら、その成果を反映した報酬をもらえるかもしれない。
多くの学習シナリオ、特にマルチエージェントシステムでは、エージェントがパフォーマンスのために同じ外的報酬を共有することがあるんだ。この共有された報酬は、エージェントが共通の目標を達成するために一緒に働くのを促進するのに役立つ。ただ、これは時には全エージェントが同じ信号に依存するから、トレーニングに時間がかかることもある。
この制限を解決するために、いくつかの方法が内的報酬を使うんだ。それは各エージェントに固有で、そのエージェントの個々の行動に基づいているから。これにより、エージェントは特化したフィードバックを受け取れるから、学習プロセスが早く進む可能性があって、全体的なパフォーマンスが改善されるんだ。