Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 機械学習# 計算と言語# コンピュータと社会

LLMのコンテンツ安全性の向上

大きな言語モデルとの安全なやり取りのための新しいフレームワーク。

― 1 分で読む


AIシステムのコンテンツ安AIシステムのコンテンツ安全性方法が発表されたよ。安全なAIインタラクションのための新しい
目次

大規模言語モデル(LLM)や生成AIの台頭によって、安全なコンテンツを確保することがますます重要になってきてる。これらの技術を使うときには多くのリスクがあって、特にコンテンツの安全性に焦点をあてた高品質なデータが足りてない。そこで、我々は潜在的な安全リスクの詳細リストと、人間とLLMのインタラクションの例がたくさん含まれた新しいデータセットを作成したんだ。このデータセットを他の人たちと共有して、LLMの安全性向上に役立てるのが目標だよ。

安全リスクの定義

まず、さまざまなタイプの安全リスクを分類した明確なリストを作った。このリストには主なリスクとあまり一般的でないリスクも含まれてる。これらのリスクをよく理解することで、対処するためのより良いガイドラインを作れるんだ。

約26,000の人間とLLMのインタラクションの例からなる新しいデータセットを集めた。各例は、人間のアノテーターによってリスクカテゴリーに基づいてレビューされ、ラベリングされてる。このセットは、研究者が自分たちのモデルを評価し改善するために貴重なデータを提供するのに役立つよ。

モデルのトレーニング

次に、新しく作成したデータセットを使って複数のLLMをトレーニングして、コンテンツの安全性を評価した。トレーニングしたモデルは、既存のモデルと比較して安全機能においてより良いパフォーマンスを示してるし、さまざまなコンテンツの安全性の課題にも対応できる。うちのモデルはパフォーマンスが良いだけでなく、混乱させる攻撃にも強いのが重要なんだ。

コンテンツモデレーションの提案フレームワーク

「専門家のアンサンブル」を使った新しいフレームワークを提案して、コンテンツモデレーションのプロセスを改善したんだ。つまり、ただ一つのモデルに頼るのではなく、違ったモデルのグループを使ってコンテンツの安全性をより良く評価するってこと。これらのモデルが協力して、洞察を共有し、意思決定の精度を向上させることができるよ。

提案するシステムは、各専門家の意見が最終的な決定にどれくらい影響するかを、コンテキストと現在モデレーションされているコンテンツに応じて調整する。つまり、モデレーションシステムはさまざまなデータに適応でき、新しい安全ポリシーが出てきたときに自らアップデートするんだ。

主な貢献

我々はコンテンツの安全性の分野にいくつかの重要な貢献をしたよ:

  1. リスク分類:LLMのインタラクションに関連する重要な分野をカバーする広範な安全リスクリストを作成した。

  2. 高品質データセット:人間とLLMのインタラクションのラベル付き例が含まれたデータセットを整備して、研究者にとって必須のデータを提供する。

  3. 多様なモデル:新しい安全基準に適応できる強力で多様なLLMを構築し、他のよく知られた安全モデルに対して良い結果を示してる。

  4. 新しいモデレーションアプローチ:フィードバックからリアルタイムで学ぶオンラインフレームワークを導入して、時間とともにモデレーションのために最善の安全モデルを選ぶことができる。

AIにおける安全性の考慮事項

AI、特にLLMにおける安全性は継続的な関心事だ。主な目標は、これらのシステムが有益な方法で機能し、ユーザーに害を与えないことを確保すること。安全性にはいろいろな側面があって:

  • アラインメント:AIの行動が人間の価値観や倫理に合致していること。
  • セキュリティ:システムを脅威や攻撃から守ること。
  • 公平性:AIがすべてのユーザーを平等に扱い、バイアスを導入しないこと。
  • ロバストネス:AIが困難な状況でもパフォーマンスを維持できること。
  • プライバシー:ユーザーデータを保護し、機密性を確保すること。
  • 説明責任:AIの行動に対して明確な責任があること。

コンテンツモデレーションは、これらの安全目標を達成するために重要な役割を果たす。

リスクとモデレーションへのアプローチ

我々のアプローチでは、LLMに与えられたプロンプトと生成された応答の両方を考慮する。目指すは、どのリスクカテゴリーが侵害される危険にさらされているかを予測し、コンテンツについてリアルタイムで判断を下すことだ。これを効果的に行うためには、しっかりした安全タクソノミーと、何が違反なのかを明確にするガイドラインが必要なんだ。

リスクカテゴリーは既存のフレームワークを基にして、それを自分たちのニーズに合わせて調整した。つまり、有害コンテンツのタイプを区別するような重要な違いを含めて、より正確なモデレーションを実現することが大切なんだ。

データセットの構築とアノテーション

データセットを作成するために、LLMから応答を引き出すプロンプトを使い、ポジティブなものとネガティブなものの例を集めた。人間のアノテーターのチームがこれらの応答にラベルを付けて、高品質なデータを確保したよ。品質保証のプロセスには定期的な監査やフィードバックループが含まれていて、データセットが信頼性と正確性を保てるようにしてる。

我々のチームには多様な背景を持つ人々がいて、そのおかげでアノテーションプロセスにいろいろな視点を取り入れられる。目的は、データセットが幅広い人間の価値観や経験を反映することだ。

モデルパフォーマンスの評価

安全モデルを構築したら、確立されたベンチマークに対してテストしてパフォーマンスを評価した。モデルがさまざまなリスクをどれだけうまく特定できるかを見て、既存の安全モデルの結果と比較したんだ。結果は、我々のデータセットでトレーニングされたモデルが、安全でないコンテンツを特定する上で大幅に優れていることを示してる。

馴染みのある状況とそうでない状況の両方でモデルを評価することで、新しい安全リスクに対しても一般化できることを確保した。この適応能力は、実際のアプリケーションにとっては不可欠で、有害コンテンツの性質が時間とともに変化する可能性があるからね。

安全性の課題に対処

予測していた課題の一つは、モデルが不適切なコンテンツを生成するように騙す攻撃に耐えられるかどうかだった。これを「ジェイルブレイキング」と呼ぶんだけど、LLMの指示が安全トレーニングと衝突すると、望ましくない出力が出てしまうんだ。

我々のモデルをいくつかの既知のジェイルブレイキング手法に対して評価して、その耐久性を測ってみたけど、結果は我々のモデルがこれらの攻撃に対して強力な防御を持っていることを示してる。だから、ユーザーを安全に守るために信頼できるんだ。

オンライン適応のためのフレームワーク

提案したオンライン適応フレームワークによって、モデレーションシステムがリアルタイムで学習できるようになる。この設定では、システムが自分の決定に対する継続的なフィードバックを受け取る。もし特定のモデルが他のモデルよりも良いパフォーマンスを示したら、そのモデルに焦点を合わせて、時間とともに効果を高めるんだ。

実際的には、モデレーションシステムがユーザーの行動の変化や新たなリスクに動的に適応できるようになって、コンテンツが安全で最新のポリシーに準拠したものに保たれるってこと。

今後の方向性

これからは、完全なデータセットを使ってモデルをさらに洗練させることが目標。データセットとトレーニングしたモデルをコミュニティに公開して、協力やフィードバックを促進するつもりだ。

トレーニングプロセスの改善に加えて、敵対的攻撃を最小限に抑える方法を探ることにもコミットしている。生成AIの利用が増える中で、我々の安全モデルが進化する脅威に耐えられるようにすることが最優先事項だよ。

結論

生成AIがますます普及していく中で、信頼できて効果的な安全システムを構築するのは重要だ。包括的なデータセット、詳細なリスク分類、および応答性のあるモデレーションフレームワークの作成を通じて、我々はLLMのインタラクションの安全性を向上させることを目指している。役立つこととユーザーの安全を両立させる道を提供するために、我々の作業は進んでいくんだ。

研究コミュニティと自分たちの知見やツールを共有することで、AIをより安全で有益な技術にするための努力に貢献していきたいと思ってるよ。

オリジナルソース

タイトル: AEGIS: Online Adaptive AI Content Safety Moderation with Ensemble of LLM Experts

概要: As Large Language Models (LLMs) and generative AI become more widespread, the content safety risks associated with their use also increase. We find a notable deficiency in high-quality content safety datasets and benchmarks that comprehensively cover a wide range of critical safety areas. To address this, we define a broad content safety risk taxonomy, comprising 13 critical risk and 9 sparse risk categories. Additionally, we curate AEGISSAFETYDATASET, a new dataset of approximately 26, 000 human-LLM interaction instances, complete with human annotations adhering to the taxonomy. We plan to release this dataset to the community to further research and to help benchmark LLM models for safety. To demonstrate the effectiveness of the dataset, we instruction-tune multiple LLM-based safety models. We show that our models (named AEGISSAFETYEXPERTS), not only surpass or perform competitively with the state-of-the-art LLM-based safety models and general purpose LLMs, but also exhibit robustness across multiple jail-break attack categories. We also show how using AEGISSAFETYDATASET during the LLM alignment phase does not negatively impact the performance of the aligned models on MT Bench scores. Furthermore, we propose AEGIS, a novel application of a no-regret online adaptation framework with strong theoretical guarantees, to perform content moderation with an ensemble of LLM content safety experts in deployment

著者: Shaona Ghosh, Prasoon Varshney, Erick Galinkin, Christopher Parisien

最終更新: 2024-09-11 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2404.05993

ソースPDF: https://arxiv.org/pdf/2404.05993

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事