人間のフィードバックの欠陥人間のフィードバックの欠陥る。人間の偏見が言語モデルの評価を台無しにす計算と言語大規模言語モデルにおける人間のフィードバックの評価言語モデルの出力を評価するための人間のフィードバックの信頼性を調べる。2025-09-20T21:35:12+00:00 ― 1 分で読む
AI画像のリスクを暴露するAI画像のリスクを暴露するプトを見つけて対処してるよ。コミュニティの取り組みが危険なAIプロンコンピュータと社会AI画像における暗黙の脅威への対処コミュニティ主導の取り組みで、T2Iモデルの有害なプロンプトを特定する。2025-09-08T09:31:06+00:00 ― 1 分で読む
批評で報酬モデルを強化する批評で報酬モデルを強化する向上させる。合成批評は言語モデルのトレーニング効率を計算と言語合成批評で報酬モデルを向上させる新しい方法が合成批評を使って報酬モデルを改善し、より良い整合性を実現する。2025-08-03T23:12:54+00:00 ― 1 分で読む