言語モデルのタスクパフォーマンスや制限を評価する難しさを探る。
― 1 分で読む
最先端の科学をわかりやすく解説
言語モデルのタスクパフォーマンスや制限を評価する難しさを探る。
― 1 分で読む
好みのフィードバックがどうやってより良い言語モデルの出力を形作るか学ぼう。
― 1 分で読む
AgoraBenchを使って言語モデルの合成データ作成能力を評価する。
― 1 分で読む
新しい方法で、人間が書いた回答を使って言語モデルの評価が改善されてるよ。
― 1 分で読む