Simple Science

最先端の科学をわかりやすく解説

最先端の科学をわかりやすく解説

Kaiwen Wang

機械学習ログ損失でオフライン強化学習を改善する

新しい方法は、学習効率を向上させるためにログロスを使用してFQIを強化する。

2025-08-31T05:35:54+00:00 ― 1 分で読む

機械学習条件付けされた言語ポリシーで言語モデルを進化させる

複数の目標をバランスさせるための言語モデルのファインチューニングのフレームワークを紹介するよ。

2025-07-09T01:44:54+00:00 ― 1 分で読む