人間の価値観のためのAIト人間の価値観のためのAIトレーニングニック。AIが倫理に合致するようにするためのテク計算と言語人間の価値に合わせた言語モデルの調整安全なAIシステムのための強化学習技術を探求中。2025-10-21T22:57:06+00:00 ― 1 分で読む
LD-DPO:LD-DPO:言語モデルの冗長性を削減する言語モデルの明確さと効果を高める方法。機械学習LD-DPOを使った言語モデルの冗長性削減言語モデルを簡潔で効果的にする新しいアプローチ。2025-06-14T04:54:12+00:00 ― 1 分で読む