UnsafeBenchで画像安全性分類器を評価する
新しいフレームワークは、悪影響のあるコンテンツに対する画像安全分類器の効果を評価する。
― 1 分で読む
目次
画像の安全性分類器は、暴力やヘイトスピーチを描いた有害な画像の認識と拡散の抑制を目的としたツールだよ。テキストから画像を生成できるAIが進化する中で、これらのAIモデルの安全性についての懸念が増えてきた。開発者たちは自分たちのモデルが安全であることを確保するために、ますます画像の安全性分類器を活用している。でも、実際の画像とAI生成の画像に対するこれらの分類器の性能がどれほどなのかはまだ不明なんだ。
このギャップを埋めるために、UnsafeBenchという画像安全性分類器の性能を評価するためのフレームワークを紹介するよ。最初のステップは、実際の世界とAIが生成した画像を合わせて合計10,000枚の画像を集めることだ。それぞれの画像は、性的、暴力的、ヘイトフルな画像を含む11の有害コンテンツのカテゴリに基づいて、安全か危険かマークされるんだ。
人気のある5つの画像安全性分類器と、一般的なビジュアル言語モデルを使った3つの分類器をテストしたよ。分析の結果、既存の分類器は有害な画像の複雑な問題に十分に対処できていないことがわかった。また、実世界の画像のみで開発された分類器は、AI生成の画像に対しては劣ることも判明した。
この発見への対応として、PerspectiveVisionという新しい画像モデレーションツールを作ったんだ。このツールは、11の危険なカテゴリに該当する画像を正確に識別できる。PerspectiveVision内の主要モデルは、6つの評価データセットに対してF1スコア0.810を達成していて、GPT-4Vのようなトップクラスのモデルと同等なんだ。
不適切なコンテンツを含む危険な画像は、Redditや4chanなどのプラットフォームに広く存在している。これらは有害なステレオタイプを強化したり、暴力を助長したり、自己傷害行動を引き起こしたりする可能性があるんだ。この問題に対抗するために、オンラインプラットフォームは画像安全性分類器と人間のモデレーターに依存して、有害な画像を特定したり削除したりしている。
Q16やNSFW検出器のような分類器は、実世界の画像をもとにトレーニングされていて、オンラインで共有された危険な画像をフィルタリングするために使用されているよ。たとえば、LAION-AIはこれらの分類器を使ってデータセット内の危険なコンテンツを報告している。でも、実世界とAI生成の画像の両方には、モデレーションが必要な危険な素材が含まれていることが多いんだ。
最近のテキストから画像を生成するモデル、例えばStable DiffusionやMidjourneyは、不適切な画像も生成できることがある。研究によると、これらのモデルは悪意あるプロンプトによって危険なコンテンツを生成する可能性があるんだ。2024年1月の著名人の画像が大量にAIで生成された件は、これらのモデルに関連するリスクを浮き彫りにしたよ。これらのリスクを減らすために、AI開発者たちは画像生成プロセス中に画像をチェックするために分類器に依存している。
画像安全性分類器に依存しているにもかかわらず、実世界とAI生成の画像に関してその効果はまだ評価されていないんだ。多くの分類器が実世界のデータセットのみでトレーニングされているため、有害なコンテンツの幅広い範囲を特定できるかどうかは不透明だ。大規模なビジュアル言語モデルの登場は新たな機会を提供するけど、既存の分類器を上回るかどうかはまだわからないよ。
私たちの取り組み
現在の画像安全性分類器とビジュアル言語モデルの性能を評価するために、UnsafeBenchを開発したんだ。このベンチマークフレームワークは、これらの分類器が実世界とAI生成のソースからどれだけうまく危険な画像を特定できるかを評価するよ。評価はOpenAIのコンテンツポリシーによって定義された11の危険な画像のカテゴリに基づいているんだ。
UnsafeBenchのプロセスは4つのステージに分かれている:1) データセットの作成、2) 画像安全性分類器の収集、3) 分類器のカバレッジを危険なカテゴリに整合させること、4) これらの分類器の効果と堅牢性を評価すること。
まず、LAION-5Bから実世界の画像を、LexicaからAI生成の画像を収集して、潜在的に危険な画像のデータセットを集めたよ。UnsafeBenchデータセットは、10,000枚の画像を含んでいて、それぞれが安全か危険かを判断するために徹底的に注釈が施されているんだ。このデータセットはベンチマークの強固な基盤となるよ。
次に、一般的に使われる5つの画像安全性分類器(Q16、MultiHeaded、SDFilter、NSFWDetector、NudeNet)を従来の分類器として収集し、ビジュアル言語モデルを使った3つ(LLaVA、InstructBLIP、GPT-4V)を集めた。これらの注釈付きデータセットに対する効果を評価するのが目的なんだ。
最後に、これらの分類器がどれだけうまく機能するか、画像の変化に対する耐性を調べたよ。特に、実世界の画像とAI生成の画像に対する分類器の扱いの違いに焦点を当てたんだ。
私たちの評価から、危険な画像を11カテゴリに分類できるモデルのスイート、PerspectiveVisionを紹介することになった。最高のモデルは、UnsafeBenchデータセットでF1スコア0.859、外部データセットで0.810を達成していて、ネガティブな道徳テーマを描いた画像を含んでいるよ。
主な発見
私たちの研究からはいくつかの重要な発見があった:
GPT-4Vが危険なコンテンツを特定するための最も優れたモデルで、カテゴリによってF1スコアが0.423から0.847まで変動する。ただ、クローズドソースで商業的な性質から広く使うのは難しいんだ。
幅広い危険な画像を効果的に特定できるオープンソースの分類器が著しく不足している。
分類器の効果は、有害なコンテンツの異なるカテゴリによって大きく異なる。性的およびショッキングなカテゴリは比較的高い精度で検出されるが(約0.8)、ヘイトや自己傷害のようなカテゴリは検出率が低く(0.6未満)なりやすい。特定のヘイトシンボルは見逃されがちだよ。
実世界の画像のみで訓練された分類器は、AI生成の画像で劣る傾向があり、F1スコアが低下する。
AI生成の画像は、アートスタイルやグリッドレイアウトなどのユニークな特徴を持っていることが多く、実世界のデータセットで訓練された分類器を混乱させることがある。
大規模な事前トレーニングされたモデルを利用することで、小さく新しくトレーニングされた分類器よりも高い堅牢性が得られることがわかった。VLM分類器は堅牢な精度が期待できたけど、NudeNetのような小型分類器は逆境条件下でパフォーマンスが悪かった。
PerspectiveVisionの性能は、危険な画像を特定する点でGPT-4Vに匹敵していて、オープンソースツールとしての実現可能性を示している。
これらの発見は、特に現在無視されがちなヘイトや自己傷害のようなカテゴリに関連する分類器の改善の必要性を強調している。さらに重要なのは、AI生成コンテンツがますます普及する中で、実世界とAI生成の画像の両方で訓練された分類器の必要性が増していることだよ。
倫理的考察
私たちのデータセットは公開ソースから作成されていて、ユーザーのプライバシーを侵害したり、人間の被験者研究に関与したりしないことを保証している。リスクを減らすために、3人の著者を注釈者として雇って、無知な第三者に危険なコンテンツを露出するリスクを減らしたんだ。誤用を防ぐために、データセットは慎重な条件のもとで共有され、研究者のリクエストのみに応じて利用可能になるよ。
危険な画像の分類
危険な画像が何を含むかを決定することは主観的で、文化や社会的規範による影響を受ける。統一された定義を確立するために、11の危険な画像カテゴリ(ヘイト、ハラスメント、暴力、自己傷害、性的、ショッキング、違法行為、欺瞞、政治、公共および個人の健康、スパムコンテンツ)を示した広く認識された分類法を参照したよ。各カテゴリには設定された定義があり、具体例を提供して、危険と見なされるものの包括的な理解を助けている。
既存の画像安全性分類器
私たちは、5つの確立された画像安全性分類器(Q16、MultiHeaded、SDFilter、NSFWDetector、NudeNet)を調査した。それぞれには特定のトレーニング方法とデータセットがある。ほとんどはCLIPをバックボーンモデルとして利用していて、画像が安全か危険かを特定するために設計されているよ。
- Q16は、コサイン類似性技術を使って画像を道徳的に正しいか間違っているかに分類するんだ。
- MultiHeadedは、複数の分類器を使ってラベル付けされたデータセットに基づいて特定のタイプの危険な画像を特定するよ。
- SDFilterは、画像生成プロセス中に働いて明示的な画像が作成されないようにするんだ。
- NSFWDetectorは、マルチレイヤーアプローチを使って性的および不適切な画像を検出することに焦点を当てているよ。
- NudeNetは、性的に明示的なコンテンツを特定するための軽量ツールだ。
LLaVA、InstructBLIP、GPT-4Vのようなビジュアル言語モデル(VLM)も、視覚とテキストのコンテンツを理解する点で可能性を示している。これらは、画像理解と自然言語処理の組み合わせに依存して、画像の安全性を評価するんだ。
UnsafeBenchの概要
UnsafeBenchは、画像安全性分類器を徹底的に評価するために構築されている。このプロセスは、10,000画像の注釈付きデータセットを作成することから始まり、さまざまな分類器を収集し、最終的に確立された危険なコンテンツカテゴリに対してその性能を評価することになるよ。
データセット構築
画像収集プロセスは、LAION-5BやLexicaといった大規模な公開データセットに依存していて、潜在的に危険な画像を集めるから、大量の公開ソースから取得しているんだ。このデータベースを使って、定義したカテゴリに対応する画像を集めるために、さまざまな危険なキーワードでクエリを実行したよ。12,000枚以上の画像を集めた後、厳密な注釈を行うために10,000枚を選別した。
画像注釈
3人の著者が画像が安全か危険かを特定するために、徹底的に注釈を付けたんだ。注釈プロセスは、独立したラベリングを行った後、意見が分かれた画像については多数決を取るという方法をとった。これにより、画像を正確にラベリングするための体系的なアプローチを確保したよ。
分類器のカバレッジを危険なカテゴリに整合させる
分類器が危険なコンテンツの範囲を正確に反映するために、それぞれの分類器の焦点領域を私たちの危険なカテゴリと比較したんだ。この整合性は、特定の種類のコンテンツを特定するのに最適な分類器を理解するのに役立ったよ。
評価方法論
F1スコアを使用して、分類器がどれだけ危険な画像を特定できるかを測定したんだ。このスコアは、偽陽性と偽陰性の両方を考慮することで、分類器のパフォーマンスをバランスよく評価するんだ。堅牢性は、分類器が検出精度を挑戦するような変更された画像に対してテストされることによって評価されたよ。
評価結果
8つの画像分類器の評価から得られた結果は、さまざまなレベルの効果を示した。GPT-4Vが最も有能なモデルとして際立っていて、従来の分類器のQ16やMultiHeadedは特定のカテゴリで強みを示した。でも、多くの分類器は特にヘイトコンテンツに苦しんでいるんだ。
異なる危険なカテゴリ
性的やショッキングなカテゴリは、特にヘイトよりも効果的に検出されることがわかった。この不均衡は、現在の分類器がすべての有害なコンテンツカテゴリに対処するのに十分ではないという懸念を引き起こしているよ。
実世界とAI生成の画像
実世界の画像とAI生成の画像を比較したとき、分類器の性能に違いが見られた。ある分類器は実際の画像に対してより良い結果を出し、別の分類器はAI生成のコンテンツに対して効果的に機能した。性能の違いは、これらの2種類の画像に見られる特徴の違いに起因していると思われるよ。
分類器の堅牢性
逆境の例やランダムな変更に対する分類器の堅牢性は、広く異なり、多くの従来の分類器が苦しんでいたことがわかった。特にNudeNetは、テスト条件下で最低の精度を示したよ。
PerspectiveVisionの動機と概要
UnsafeBenchからの発見は、現在の画像安全性分類器の重要な欠点を明らかにしている。これを改善するために、PerspectiveVisionを開発したんだ。このツールは、さまざまなカテゴリの画像の安全性を評価し、ユーザーがフィルタリングしたい危険なコンテンツの種類を指定できるんだ。
PerspectiveVisionの評価
UnsafeBenchデータセットでPerspectiveVisionをトレーニングし、外部データセットに対して一般化能力を確認するために評価した。この結果、PerspectiveVisionが画像を効果的に分類できることが示されており、多くの点で既存の分類器に匹敵またはそれを上回っているよ。
関連する研究
視覚コンテンツのモデレーションソリューションは、研究者やプラットフォームモデレーターの注目を集めている。特定の危険な画像カテゴリに対処するためにさまざまな分類器が提案されているが、トレーニング用の大規模データセットが不足しているため、効果は均一ではないんだ。
結論と議論
UnsafeBenchは、画像安全性分類器の理解と改善に向けて重要なステップとなるよ。さまざまな分類器の包括的なデータセットと評価は、将来の研究の基盤を提供する。私たちの取り組みが、特にAI生成コンテンツの増加に伴い、画像モデレーションツールの改善に繋がることを期待しているんだ。
PerspectiveVisionをさらに発展させる中で、私たちはデータセットを拡充して、より多くの画像タイプを含め、評価する危険なカテゴリの範囲を広げていくつもり。目標は、現代のAI技術によって引き起こされる課題に応える、よりレスポンシブで効果的なモデレーションツールを作ることなんだ。
タイトル: UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images
概要: With the advent of text-to-image models and concerns about their misuse, developers are increasingly relying on image safety classifiers to moderate their generated unsafe images. Yet, the performance of current image safety classifiers remains unknown for both real-world and AI-generated images. In this work, we propose UnsafeBench, a benchmarking framework that evaluates the effectiveness and robustness of image safety classifiers, with a particular focus on the impact of AI-generated images on their performance. First, we curate a large dataset of 10K real-world and AI-generated images that are annotated as safe or unsafe based on a set of 11 unsafe categories of images (sexual, violent, hateful, etc.). Then, we evaluate the effectiveness and robustness of five popular image safety classifiers, as well as three classifiers that are powered by general-purpose visual language models. Our assessment indicates that existing image safety classifiers are not comprehensive and effective enough to mitigate the multifaceted problem of unsafe images. Also, there exists a distribution shift between real-world and AI-generated images in image qualities, styles, and layouts, leading to degraded effectiveness and robustness. Motivated by these findings, we build a comprehensive image moderation tool called PerspectiveVision, which addresses the main drawbacks of existing classifiers with improved effectiveness and robustness, especially on AI-generated images. UnsafeBench and PerspectiveVision can aid the research community in better understanding the landscape of image safety classification in the era of generative AI.
著者: Yiting Qu, Xinyue Shen, Yixin Wu, Michael Backes, Savvas Zannettou, Yang Zhang
最終更新: 2024-09-05 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2405.03486
ソースPDF: https://arxiv.org/pdf/2405.03486
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://unsafebench.github.io
- https://github.com/ml-research/Q16
- https://github.com/YitingQu/unsafe-diffusion
- https://huggingface.co/CompVis/stable-diffusion-safety-checker
- https://github.com/LAION-AI/CLIP-based-NSFW-Detector
- https://pypi.org/project/nudenet/
- https://huggingface.co/liuhaotian/llava-v1.5-7b
- https://huggingface.co/Salesforce/instructblip-vicuna-7b
- https://huggingface.co/lmsys/vicuna-33b-v1.3
- https://www.scikit-yb.org/en/latest/api/cluster/elbow.html