Utsav Singh

PIPERは、スパースな報酬に対処するために、好みに基づくフィードバックを使って強化学習を強化するんだ。

2025-08-17T22:02:36+00:00 ― 1 分で読む

LGR2は言語指示や階層学習を通じてロボットの作業性能を向上させる。

2025-07-31T10:25:18+00:00 ― 1 分で読む

DIPPERは人間のフィードバックを通じてロボットの学習を最適化し、タスクのパフォーマンスを向上させるよ。

2025-07-28T05:00:06+00:00 ― 1 分で読む

新しい方法でロボットが目標を細かく分けることで、タスクをより効果的にこなせるようになるんだ。

2025-06-01T13:48:24+00:00 ― 1 分で読む