基盤モデルを使ったポリシー違反検出の進展
少ない監視で効率的なポリシー違反検出のために基盤モデルを活用。
― 1 分で読む
ファウンデーションモデルは、大量のテキストでトレーニングされた大きなニューラルネットワークだよ。これによって、自然言語処理(NLP)の扱い方が大きく変わったんだ。これらのモデルには直接指示を与えることができて、これをハードプロンプティングって呼んでる。そして、少ないデータで調整できる方法があって、これをソフトプロンプティングって呼んでる。私たちは、これらのモデルを使ってポリシー違反を効果的に見つけることを目指しているんだ。
主な貢献
ポリシー違反を検出するためのチェーン・オブ・ソートプロンプティングをカスタマイズするハードプロンプトを作ったよ。このプロンプトは、テキストがポリシーに違反してるかどうかを分類するのを助けて、その理由も提供してくれる。
ハードプロンプトをソフトプロンプトチューニングと組み合わせたので、私たちの分類器は少ない監視で高い精度を達成できるようになった。分類器は説明もできるよ。監視は分類にだけ影響するけど、修正された説明はモデルの反応と一致しているんだ。
作業中に、ファウンデーションモデルのいくつかの驚くべき特徴を発見したよ。たとえば、特定のクラスからの例を多く提供すると、そのクラスの予測が実際に少なくなることがあるんだ。テキストをトークンに分解する方法がスコアに影響を与えることにも気づいた。
これらの発見をもとに、製品チームがポリシー違反を迅速に検出するための効果的なツールを作るためのシンプルなプロセスを提案するよ。
ファウンデーションモデルとその応用
広範なテキストコレクションでトレーニングされた大きな言語モデルはファウンデーションモデルとして知られている。これらのモデルは、翻訳、事実に基づく質問への回答、数学の問題解決、常識の使用など、さまざまなタスクで優れた結果を出している。
ファウンデーションモデルは、プロンプティングを通じて特定のタスクを実行するように指示できるし、少量のデータを使って洗練することもできるんだ。
毒性検出に焦点を当てる
私たちはファウンデーションモデルを使ってポリシー違反を見つけることを目指していて、特に毒性検出タスクを通じて行うつもり。タスクは、テキストが侮辱的、憎悪的、または不適切な言及を含むかどうかを特定することだよ。ニュース記事や動画、オンラインフォーラムのコメントが含まれるかもしれない。現状、このタスクは人間の努力と機械処理の組み合わせで行われている。人間がデータにラベルを付けて、機械がそのデータを使って分類しているんだ。
データを集めて、評価者を指導して、監視学習を使ってモデルを作るのは手間がかかるプロセスだよ。プロンプトを使うことで、データ収集コストが高い一回限りのタスクや、指示をすぐに変更する必要があるとき、新しい指示を評価者にテストするときに助けになる。
私たちは、ファウンデーションモデルが毒性とは何かを知っていると期待している。なぜなら、さまざまなウェブのテキスト、ニュース記事、ソーシャルメディアのデータでトレーニングされているからだ。
毒性検出の現状
BERTのような他のモデルは、毒性検出でトップの結果を出している。でも、これまでのところ、このサイズのモデルで最小の監視を使ったベンチマークはなかったんだ。
プロンプトデザイン
ハードプロンプトにはテキスト指示が含まれていて、望ましい入力と出力のいくつかの例があるよ。このプロンプトは、ファウンデーションモデルに提供される入力に追加される。
ハードプロンプトの構造
私たちのハードプロンプトには、タスクのガイドラインがあって、その後にいくつかの例が続く。この例には、コメント、回答、説明、引用、キーワードが含まれているよ。この構造によって、モデルは説明を生成したり、特定のキーワードや引用を提供したりすることができるんだ。
抽出的説明
引用とキーワードは、このプロンプト手法における抽出的説明として機能するよ。抽出的説明は、モデルの反応と一緒に生成された入力テキストの一部から成り立っている。これらの抜粋は、モデルの分類を明確にしたり正当化したりするのに役立つんだ。
グラウンデッド・リーズニングチェーン
私たちのプロンプトのレイアウトは、モデルが推論や数学のタスクに取り組むチェーン・オブ・ソートプロンプトに似ているよ。私たちの推論は3つのステップに分かれている。2つのステップは、コメントから関連するキーワードを抽出し、ガイドラインから適用可能な引用を得ること。最後のステップは、議論の概要を示す説明さ。私たちのソフトプロンプトチューニングのニーズもプロンプトデザインに影響を与えている。
XMLタグ
他の研究では、セクション見出しを使ってプロンプトを整理しているけど、私たちはこのアプローチが長いコメントに対して不安定であることが分かった。そこで、XMLスタイルのマークアップを選んで、プロンプトの異なる部分を明確に定義することで、モデルの反応をより一貫させることができたんだ。
ソフトプロンプトチューニングの説明
ソフトプロンプトチューニングは、数百または数千の例でモデルをトレーニングすることを含むよ。この方法では、モデルのパラメータは変更されない。代わりに、各入力の最初に人工トークンを追加して、そのトークンの表現を勾配降下法で調整するんだ。
この方法により、単一の高価なファウンデーションモデルをさまざまなタスクに適用できるようになったよ。
トレーニングデータセットサイズ
プロンプトチューニングプロセスのために、少数のトレーニング例を選択するよ。これは、ファウンデーションモデルを実際の状況でどう使うかを反映しているんだ。十分なトレーニングデータがあれば、BERTのような小さなモデルを使うかもしれない。BERTモデルは運用コストが安いけど、より多くの監視が必要なんだ。だから、ラベル付きデータが限られているときにはファウンデーションモデルを使うことが多くて、通常は50から5,000例のサイズのデータセットで作業しているんだ。
プロンプトチューニングと説明の組み合わせ
私たちは、監視はモデルの分類(毒性かどうか)にしか存在しないと仮定している。抽出的説明には監視がないんだ。なぜなら、そのような監視を生成するのはもっと難しいから。だけど、調整されたモデルが抽出的説明を生成することを望んでいるから、チューニングと推論の両方の段階でハードプロンプトを含めるんだ。
インファレンス中にハードプロンプトを使うのは効果的じゃなかったんだ。ソフトプロンプトだけを使ったときは、説明を生成できなかったから、'Yes' または 'No' の出力しか出せなかった。
毒性検出の実験
毒性検出データセットで私たちの方法をテストしたんだ。このデータセットはテキストを毒性か非毒性に分類することが目的なんだよ。データセットには約200万例が含まれていて、ネガティブなケースをダウンサンプリングして、バランスの取れたトレーニング、検証、テストの分割を作った。50, 100, 200, 500, 1,000, 2,000, 5,000のさまざまなトレーニングセットサイズをランダムにサンプリングして、パフォーマンスを評価したんだ。
実験の結果
異なるサイズの3つのモデルに注目したよ:62B FLAN-cont-PaLM、540B FLAN-PaLM、540B FLAN-U-PaLM。これらのモデルはFLANからの指示チューニングを含んでいて、いくつかのベンチマークでの少数ショットとゼロショットパフォーマンスに効果的なんだ。
パフォーマンスのレビュー
540B FLAN-U-PaLMモデルを使ってアブレーションスタディを行ったよ。このスタディでは、私たちのプロンプトのパフォーマンスを異なる条件下で比較したんだ。'ベースライン'は私たちの標準セットアップを指していて、プロンプトの要素を調整して、パフォーマンスへの影響を見たんだ。
プロンプトチューニングプロセス
62Bモデルには100トークン、540Bモデルには40トークンでプロンプトをチューニングしたよ。トレーニングには、アダムという基本的な最適化手法を使って、一貫した学習率を維持したんだ。
データセットサイズをテストした結果、最小の例でもパフォーマンスが大幅に改善されて、データを追加するにつれて徐々に向上していったよ。
例の役割を理解する
従来の機械学習では、例が判断境界を設定するのに影響を与える。多くの例を提供すると、そのクラスの予測が一般的に増える。でも、ファウンデーションモデルの場合、提供された例は典型的なケースとして機能するんだ。極端な例を追加すると、そのクラスの予測が少なくなる可能性があって、微妙なケースを見逃すことにつながるんだ。
モデルの予測と評価の洞察
言語モデルは最初に「Yes」または「No」を出力することで動作するよ。「Yes」トークンに関連付けられた確率がその例の信頼スコアとして機能して、不確実なケースを人間のレビュー用にフィルタリングするのを助けるんだ。
トークン化への感度
モデルのスコアは、テキストがトークン化される方法によって変わることがあるよ。たとえば、XMLタグのスペースを変更すると、モデルの反応やスコアがシフトする可能性があるから、一貫したフォーマットを維持するのが重要なんだ。
誤ってラベル付けされたコメントを特定するためのモデルの使用
ファウンデーションモデルを使って、誤ってラベル付けされた例を見つけることができるよ。予測を分析することで、人間の評価とモデルのスコアの間に大きなギャップがあるコメントに焦点を当てることができるんだ。
結論
要するに、ファウンデーションモデルは最小の監視でポリシー違反を検出するのに非常に効果的なんだ。提案されたワークフローは、ラベル付き例を少なくすることで、チームが新しいポリシーを迅速に実装できるようにしている。
最初のステップは、ポリシーの説明といくつかのラベル付き例を使ってプロンプトを作成することだ。それをデータでテストして、パフォーマンスに基づいてプロンプトを洗練させるんだ。
次のステップは、ソフトプロンプトチューニングのためのトレーニングセットを作成すること。トレーニングが終わったら、モデルを評価して、デプロイ前に修正を行うことができる。
モデルが高い信頼を示したら、その出力を受け入れることができる。あまり自信がない例は人間の評価に回して、将来のトレーニングに貴重なデータを追加することができるんだ。
このアプローチは、ポリシー違反の検出の効率と正確さを向上させることにつながるよ。
タイトル: Using Foundation Models to Detect Policy Violations with Minimal Supervision
概要: Foundation models, i.e. large neural networks pre-trained on large text corpora, have revolutionized NLP. They can be instructed directly (e.g. (arXiv:2005.14165)) - this is called hard prompting - and they can be tuned using very little data (e.g. (arXiv:2104.08691)) - this technique is called soft prompting. We seek to leverage their capabilities to detect policy violations. Our contributions are: We identify a hard prompt that adapts chain-of-thought prompting to policy violation tasks. This prompt produces policy violation classifications, along with extractive explanations that justify the classification. We compose the hard-prompts with soft prompt tuning to produce a classifier that attains high accuracy with very little supervision; the same classifier also produces explanations. Though the supervision only acts on the classifications, we find that the modified explanations remain consistent with the (tuned) model's response. Along the way, we identify several unintuitive aspects of foundation models. For instance, adding an example from a specific class can actually reduce predictions of that class, and separately, the effects of tokenization on scoring etc. Based on our technical results, we identify a simple workflow for product teams to quickly develop effective policy violation detectors.
著者: Sid Mittal, Vineet Gupta, Frederick Liu, Mukund Sundararajan
最終更新: 2023-06-09 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2306.06234
ソースPDF: https://arxiv.org/pdf/2306.06234
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://q.uiver.app/?q=WzAsMTAsWzAsMCwiQ3JlYXRlXFwgR3VpZGVsaW5lc1xcXFwgYW5kXFwgRXhhbXBsZXMiXSxbMCwxLCJFdmFsdWF0ZSJdLFsxLDEsIkZpeFxcIHByb21wdCJdLFswLDIsIlNjb3JlXFwgZXhhbXBsZXMiXSxbMCwzLCJTZWxlY3QvbGFiZWxcXCBleGFtcGxlcyJdLFswLDQsIlRyYWluXFxcXCBzb2Z0LXByb21wdCAiXSxbMCw1LCJFdmFsdWF0ZSJdLFsyLDQsIlNjb3JlXFwgbmV3XFxcXCBleGFtcGxlcyJdLFs0LDQsIkFjY2VwdCJdLFsyLDMsIkh1bWFuXFxcXCBldmFsIl0sWzAsMV0sWzEsMiwiRXJyb3JzPyJdLFsxLDMsIk9LPyJdLFszLDRdLFs0LDVdLFs1LDZdLFs2LDIsIkVycm9ycz8iLDAseyJsYWJlbF9wb3NpdGlvbiI6ODAsImN1cnZlIjo1fV0sWzYsNCwiQWRkXFwgdG9cXFxcIHNldCIsMCx7Im9mZnNldCI6LTQsImN1cnZlIjotNX1dLFs1LDcsIiIsMCx7ImNvbG91ciI6WzIyOCw5OSw2MF19XSxbNyw4LCJoaWdoXFxcXCBjZXJ0YWludHkiLDAseyJjb2xvdXIiOlsyMjgsOTksNjBdfSxbMjI4LDk5LDYwLDFdXSxbNyw5LCJVbmNlcnRhaW4iLDAseyJjb2xvdXIiOlsyMjksOTEsNjBdfSxbMjI5LDkxLDYwLDFdXSxbOSw0LCJBZGRcXCB0b1xcIHRyYWluaW5nIiwwLHsiY29sb3VyIjpbMjI5LDkxLDYwXX0sWzIyOSw5MSw2MCwxXV0sWzIsMSwiIiwyLHsiY3VydmUiOjN9XV0=