Piotr Miłoś

ファインチューニング中にRLのスキルを維持する方法を探ってる。

2025-09-11T00:51:00+00:00 ― 1 分で読む

トレーニングデータを整理すると、言語モデルのパフォーマンスがかなり良くなるよ。

2025-09-05T13:58:24+00:00 ― 1 分で読む

研究によると、一般的な正則化手法がオフポリシーRLエージェントのパフォーマンスをタスク全体で向上させることがわかった。

2025-09-02T06:58:24+00:00 ― 1 分で読む

BROを紹介するよ、もっと早くロボットが学べる方法なんだ。

2025-08-07T03:03:18+00:00 ― 1 分で読む

複雑なAI推論の課題に対するサブゴールベースの手法を見てみよう。

2025-08-02T00:28:24+00:00 ― 1 分で読む

テキスト埋め込みのモデルを賢く効果的にトレーニングする方法を学ぼう。

2025-08-01T10:38:54+00:00 ― 1 分で読む