大規模言語モデルの安全性を評価すること
LLMの安全性向上に焦点を当てたデータセットのレビュー。
― 1 分で読む
近年、大規模言語モデル(LLM)の安全性についての懸念が高まってるよね。この懸念から、これらのモデルの安全性を評価・改善するためのさまざまなデータセットが急増してる。ただ、データセットの急速な発展は、異なる目標で独立して起こることが多いから、研究者や実務家にとっては、自分のニーズに合ったデータセットを見つけたり、新しいデータセットが必要な分野を把握するのが大変なんだ。
この課題に対処するために、LLMの安全性に焦点を当てたオープンデータセットの体系的なレビューが行われた。このレビューは、既存のデータセットを収集して分析し、成長や目的、実際の利用について明らかにすることを目指してる。
データセットの成長
ここ数年、LLMの安全性を評価・向上させるためのデータセットの数が劇的に増加してる。この成長は、LLMに関連するリスク、特にバイアスのある出力や有害なコンテンツ生成についての懸念から来てる。データセットが増える中、安全関連データセットの状況が多様で急速に変化していることを理解するのが重要なんだ。
このレビューでは、2018年6月から2024年2月までに発表された102のデータセットが特定された。このコレクションは、LLMの安全性に関する取り組みと、その評価方法の多様性を示してる。
現在のトレンド
安全データセットの中でのひとつの顕著なトレンドは、合成データセットの使用が増えていること。これらは、実際のデータから編纂するのではなく、モデルによって完全に生成されたデータセットだ。それに、英語以外の言語で利用できるデータセットがほとんどないのが大きな問題。これが多言語環境で研究してる人たちには難点になるかも。
レビューでは、学術界や産業界で安全データセットがどのように利用されているかも取り上げられてる。たくさんのデータセットがあるけど、実際の評価やベンチマークで使われてるのは、そのごく一部だけってことが多くて、もっと包括的なLLMの安全性評価のチャンスが逃されてるって示してるんだ。
データセットレビューの方法論
含まれる基準
このレビューに適したデータセットを集めるために、特定の基準が設定された。LLMの安全性に関係するオープンデータセットのみに焦点を絞り、テキストから構成されたものだけを考慮した。画像や音声、マルチモーダルモデルに関連するデータセットは除外された。バイアスや有害な指示に関連するLLMの安全性に直接関わるテキストのみが対象になったんだ。
データセット候補の発見
データセット候補を集めるために、反復的なプロセスが使われた。最初の段階ではコミュニティの参加を通じてデータセットを編纂し、その後、既存の出版物の参照を調べるスノーボール検索技術を用いて追加のデータセットを見つけた。このアプローチで102の関連データセットが特定された。
情報の記録
各データセットについて、目的、作成、フォーマット、アクセス、ライセンスなどの構造化情報が収集された。この構造化データは、データセットの特性や潜在的な応用を理解したい研究者や開発者にとって便利なリソースになる。
主な発見
歴史と成長
レビューによると、LLMの安全性の評価に対する関心はしばらく前から高まってたけど、昨年は特に成長のペースが加速した。初期のデータセットは特定のバイアスの評価に焦点を当ててたけど、最近のデータセットはより広範な安全性評価に広がってきてる。これは安全性のより包括的な見方へとシフトしてるってことだね。
データセットの目的と使用
データセットはさまざまな目的で作られてる。広範な安全性評価、狭い安全性評価、バイアス評価、倫理的整合性などに基づいてカテゴリー分けできる。大多数のデータセットは、モデルのトレーニングではなく評価の基準としての役割を果たすことを目的としていて、モデルのパフォーマンス評価に重きを置いてることがわかる。
データセットのフォーマットとサイズ
データセットのフォーマットは、言語モデルの変化に対応して進化してる。古いデータセットはオートコンプリートスタイルのプロンプトを利用してたけど、これは現代の生成モデルにはあまり関連性がない。対照的に、今のデータセットはチャットスタイルのフォーマットを頻繁に使ってて、ユーザーがLLMとどのようにやりとりするかによりよく合ってる。
データセットのサイズも幅広い。一部のデータセットは小規模で専門的だけど、他には数十万件のエントリを持つものもある。レビューでは、最小のデータセットがほんの数個のプロンプトしか含んでいないのに対し、最大のデータセットは60万件以上のエントリを持つことがわかった。
作成方法
これらのデータセットを作成するための方法は多様だ。多くの最近のデータセットは、テンプレートに大きく依存していて、人間が書いたプロンプトを組み合わせて大きなデータセットを生成してる。それに、完全合成データセットが増えてきてて、モデルを使ってトレーニングや評価データを作成する方向にシフトしてるのがわかる。
言語分布
レビューからの重要な発見は、ほとんどのデータセットが英語でしか利用できないってこと。102のデータセットの中で、他の言語で作られたのはほんの一部だけ。多言語リソースの不足は、さまざまな言語的文脈での発見の適用を制限するかもしれない。
アクセスとライセンス
アクセスの面では、GitHubがこれらのデータセットを共有するための主要なプラットフォームに浮上している。多くのデータセットはHugging Faceでも入手可能だ。ほとんどのデータセットは、研究や開発に使いやすくなるように許可が出されたライセンスのもとで提供されている。
出版場所
学術機関や非営利団体がオープンLLM安全データセットの作成と出版の主な貢献者になってる。かなりの数のデータセットが言語技術に特化した主要な会議で発表されているけど、arXivのようなより非公式な出版チャネルへの傾向も見られる。
モデルリリースにおけるデータセットの利用
レビューでは、これらのオープンLLM安全データセットが実際にどのように使われているか、特にモデルリリースの出版物においても調査された。多くの最先端モデルが安全性評価について報告しているけど、その評価の範囲はばらばら。いくつかのモデルは安全性評価を報告していないものもあって、実践の不一致が際立っている。
レビューされたモデルの中では、一般的に参照されるデータセットは限られていて、多くのモデルが狭い範囲の安全性評価に頼っていることを示している。データセット「TruthfulQA」は特に広く使われていて、さまざまなモデルリリースでの使用が目立つ。
ベンチマークレビュー
最後に、レビューではLLMの安全性を評価するための人気のベンチマークスイートも調査された。さまざまなベンチマークが複数の安全データセットを取り入れているけど、安全性のすべての側面を網羅する包括的なフレームワークは不足している。各ベンチマークにはそれぞれ焦点があるけど、全体としてLLMの安全性を評価するためにより統一されたアプローチが必要だってことを示してる。
結論
LLMの安全性を評価・改善するためのオープンデータセットの成長は励みになるし、AI技術の開発における安全性の懸念に対処する重要性を反映している。でも、現状の状況は言語の多様性や評価における利用のギャップを明らかにしている。
このレビューは、安全性評価におけるより標準化された実践の必要性を強調している。現在利用可能なさまざまなデータセットをうまく活用することで、研究者や実務家は評価を強化して、安全で信頼性の高い言語モデルにつながることができる。
今後は、安全データセットの進化を引き続き記録して、多様な言語的・文化的背景からの貢献を促進して、LLMの安全性についての包括的なカバレッジと理解を確保することが重要だね。
タイトル: SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety
概要: The last two years have seen a rapid growth in concerns around the safety of large language models (LLMs). Researchers and practitioners have met these concerns by introducing an abundance of new datasets for evaluating and improving LLM safety. However, much of this work has happened in parallel, and with very different goals in mind, ranging from the mitigation of near-term risks around bias and toxic content generation to the assessment of longer-term catastrophic risk potential. This makes it difficult for researchers and practitioners to find the most relevant datasets for a given use case, and to identify gaps in dataset coverage that future work may fill. To remedy these issues, we conduct a first systematic review of open datasets for evaluating and improving LLM safety. We review 102 datasets, which we identified through an iterative and community-driven process over the course of several months. We highlight patterns and trends, such as a a trend towards fully synthetic datasets, as well as gaps in dataset coverage, such as a clear lack of non-English datasets. We also examine how LLM safety datasets are used in practice -- in LLM release publications and popular LLM benchmarks -- finding that current evaluation practices are highly idiosyncratic and make use of only a small fraction of available datasets. Our contributions are based on SafetyPrompts.com, a living catalogue of open datasets for LLM safety, which we commit to updating continuously as the field of LLM safety develops.
著者: Paul Röttger, Fabio Pernisi, Bertie Vidgen, Dirk Hovy
最終更新: 2024-04-08 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2404.05399
ソースPDF: https://arxiv.org/pdf/2404.05399
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://safetyprompts.com/
- https://github.com/paul-rottger/safetyprompts-paper
- https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- https://tatsu-lab.github.io/alpaca_eval/
- https://huggingface.co/spaces/AI-Secure/llm-trustworthy-leaderboard
- https://github.com/stanford-crfm/helm/tree/main/src/helm/benchmark/scenarios