拡散モデルを使った分布外検出の進展
新しい方法が、拡散モデルとラベルなしデータを使ってOOD検出を強化するよ。
― 1 分で読む
機械学習の世界では、特定のグループに属さないデータを検出すること、つまり異常検出(OOD検出)がめっちゃ重要なんだ。これは、システムが認識するように学習してきたものと違うデータを見つけるってこと。例えば、医者があるタイプのスキャン用に作られた医療AIプログラムを使って別のタイプを入力しちゃったら、結果は無意味になっちゃうかも。だから、AIシステム、特に医療みたいなデリケートな分野で使われるものは、自分のトレーニング範囲外のデータを認識することが大事なんだよね。
これまでのところ、異常検出は主にラベル付きデータとラベルなしデータの2種類を使って行われてきた。ラベル付きデータは分類が分かってるけど、ラベルなしデータは特にタグやカテゴリーがない。ラベル付きデータを集めるのって、時間もリソースもかかるから大変なんだよ。そこで、ラベルなしデータが役立つわけ。目指すのは、このラベルなしのドメイン内データから学習して、ドメイン内とドメイン外のデータをしっかり区別できるシステムを作ること。
拡散モデルの役割
拡散モデルは、この分野での可能性で注目を集めている。これは、画像から徐々にノイズを取り除く方法を学ぶ機械学習モデルの一種なんだ。ノイズでいっぱいの画像から始まって、モデルは何回かのステップを経て、そのノイズの多い画像をクリアな画像に戻す方法を学ぶんだ。
このモデルは、何かが変更されたり、学習したパターンに合わない時を見分けることができるから、異常検出に役立つ。例えば、ある画像が特定の方法で歪んでいて、拡散モデルがそれを再構築するのに苦労するようなら、その画像はドメイン外だって合図になるんだ。
Lift, Map, Detect (LMD) メソッド
私たちは、拡散モデルを使って無監督で異常検出を行う「Lift, Map, Detect (LMD)」という方法を紹介するよ。やり方はこんな感じ:
画像の持ち上げ: このステップでは、元の画像を破損させる。例えば、画像の一部を隠して見えなくする。このことで、画像を持ち上げて、元の形から離れさせるんだ。
画像のマッピング: 次に、拡散モデルを使って破損した画像の欠けている部分を埋めて修正する。もし元の画像が期待されるグループ内にあれば、拡散モデルはわりと簡単にそれを復元できる。しかし、元の画像が別のグループに属していれば、モデルは再構築に苦労して、元の画像と再構築された画像の間に大きな違いが生まれるんだ。
OOD画像の検出: その後、再構築された画像が元の画像とどれくらい違うかを測る。大きな違いがあれば、その画像はドメイン外の可能性が高い。いろんな例を見て、期待されるパターンに合わない画像を特定できる。
実験
私たちの実験では、この方法をいくつかの古い技術と比較した。LMDの有効性は、さまざまなデータセットでのパフォーマンスの優位性で示されてる。ドメイン内とドメイン外の画像を区別できるかを、複数のデータセットペアでテストした。
評価には、受信者動作特性(ROC)の曲線下の面積(AUC)という指標を使った。ラベルなしデータだけに焦点を当てて、ドメイン内データのトレーニングセットのみを使って、さまざまなドメイン外データセットを評価した。
結果
実験の結果、LMDメソッドはほとんどの場合、古い技術よりも優れた性能を発揮した。例えば、CIFAR10データセットとSVHNデータセットの画像を比較したとき、私たちの方法はドメイン外画像を明確に検出できた。これは、さまざまなデータセットでのアプローチの信頼性と多様性を示している。
さらに、インペイントされた画像の質もチェックした。拡散モデルはドメイン内画像をよく再構築できて、オリジナルに似た感じになっていた。対照的に、ドメイン外画像の再構築は、しばしば一貫性がなく認識しづらく、期待されるグループに属していないことを示していた。
マスキングの重要性
私たちの方法の重要な要素は、持ち上げプロセス中に画像をマスクする方法なんだ。マスクのサイズやパターンがパフォーマンスに大きく影響することが分かった。例えば、チェッカーボードパターンを使うことで、モデルが効果的に再構築するための十分なコンテキストが画像に残るようにできた。それに、交互にマスクパターンを使うことで、何度も試行する過程で画像の異なる部分を再構築プロセスにさらすことができた。
このアプローチのおかげで、元の画像の重要な特徴が常にマスクされるわけじゃない。チェッカーボード戦略は、異なる部分が再構築プロセスで役割を果たすのを許すから、より良い結果につながるんだ。
複数回の再構築試行
LMDメソッドの性能をさらに向上させるために、画像を再構築する試行を複数回行うアイデアを導入した。各試行は異なる結果を生むかもしれない。この試行の中央値を見れば、画像がドメイン内かドメイン外かをよりよく判断できる。つまり、再構築の結果に変動があっても、中央値を取ることでより信頼できる指標が得られるってこと。
実験では、試行回数が増えるほど、検出性能が良くなっていく傾向があった。特に最初の試行がもっとも大きな改善を示した。
評価のための指標
再構築された画像が元の画像とどれくらい一致しているかを評価するために、さまざまな指標をテストした。見てみると、学習された知覚画像パッチ類似度(LPIPS)が特に良い結果を示した。驚くことに、平均二乗誤差(MSE)などの簡単な方法も時々は機能したけど、LPIPSのように知覚的な違いを捉えるのには及ばなかった。
いろんなテストを経て、LPIPSはデータセット全体で一貫して強い結果を出して、画像の再構築の質を測るための信頼できる選択肢になった。
結論
LMDメソッドは、拡散モデルの能力を使って無監督異常検出に強い可能性を示している。画像を持ち上げてマッピングすることで、知覚的な違いに基づいてそれらを区別することができれば、ドメイン外検出の精度がグッと向上するかもしれない。
ただ、1つの課題が残っていて、拡散モデルの処理速度が遅くなることが多い。これは、デノイズのために多くの反復が必要になるから。でも、研究者たちはこのプロセスを高速化する方法に取り組んでいて、これがLMDメソッドを今後リアルタイムのアプリケーションに適したものにするかもしれない。
全体的に見て、私たちの研究は、特に重要な分野での機械学習システムの信頼性を向上させるための有望な一歩を示している。ラベルなしデータと革新的なテクニックを使って、AIシステムが知っていることと知らないことを区別する能力を高めることができるんだ。
タイトル: Unsupervised Out-of-Distribution Detection with Diffusion Inpainting
概要: Unsupervised out-of-distribution detection (OOD) seeks to identify out-of-domain data by learning only from unlabeled in-domain data. We present a novel approach for this task - Lift, Map, Detect (LMD) - that leverages recent advancement in diffusion models. Diffusion models are one type of generative models. At their core, they learn an iterative denoising process that gradually maps a noisy image closer to their training manifolds. LMD leverages this intuition for OOD detection. Specifically, LMD lifts an image off its original manifold by corrupting it, and maps it towards the in-domain manifold with a diffusion model. For an out-of-domain image, the mapped image would have a large distance away from its original manifold, and LMD would identify it as OOD accordingly. We show through extensive experiments that LMD achieves competitive performance across a broad variety of datasets. Code can be found at https://github.com/zhenzhel/lift_map_detect.
著者: Zhenzhen Liu, Jin Peng Zhou, Yufan Wang, Kilian Q. Weinberger
最終更新: 2023-08-16 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2302.10326
ソースPDF: https://arxiv.org/pdf/2302.10326
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。