Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識

ディープラーニングモデルにおけるノイズラベルの対処

新しいフレームワークが、ノイズの多いラベルにもかかわらずディープラーニングのパフォーマンスを向上させる。

― 1 分で読む


AIにおけるノイズのあるラAIにおけるノイズのあるラベルの対処方法るよ。課題にもかかわらず、トレーニングを強化す新しいフレームワークが雑音の多いデータの
目次

ディープラーニングは、特に画像分類タスクで素晴らしい結果を出してきたけど、その成功は通常、大量のクリーンで正しくラベリングされたデータが必要なんだ。でも、トレーニングデータにノイズラベルが含まれてると、うまくいかないこともあるんだよね。ノイズラベルってのは、データに付けられた間違ったり誤解を招くタグのことで、モデルのパフォーマンスを妨げる要因になる。これが原因で、新しい見たことのないデータにこれらのモデルを適用するのが難しくなるんだ。

実際のところ、研究に使われる多くのデータセットには、クリーンなラベルとノイズラベルが混在してることが多い。ノイズラベルは大きく2つに分けられる。1つは、IDノイズで、ラベルは間違ってるけど、既存のクラスにはまだ属してるやつ。もう1つは、OODノイズで、ラベルはデータセットの既知のクラスにはフィットしないやつ。今の技術は主にIDノイズの扱いに集中してて、OODノイズについてはあまり手を付けられてないんだ。

ノイズラベルを管理するためのより良い方法が必要なんだよね。今回の研究では「Manifold DivideMix」っていう新しいフレームワークを提案してて、IDとOODラベルノイズの両方に半教師ありの方法で取り組んでる。このアプローチは、モデルのトレーニング全体の質を向上させることを目指していて、ディープニューラルネットワークがノイズラベルに直面してもパフォーマンスを上げられるようにしてるんだ。

ノイズラベルの問題

ディープニューラルネットワーク(DNN)はクリーンなデータでうまく機能するけど、ノイズラベルに直面するとパフォーマンスが大幅に低下するんだ。主な問題は、DNNがトレーニングデータを記憶する傾向にあること、つまりノイズラベルも含めて学習しちゃうってこと。これが、間違った情報から学んでしまって、見たことのないデータでのパフォーマンスが悪くなる原因になるんだ。

リアルな世界では、クリーンなデータを集めるのが難しくて、お金もかかることが多い。医療画像の分野なんかでは、正確なラベリングには専門家が必要だから。だから、モデルのトレーニングに使われるデータセットの多くは、オンラインのソースから集められていて、ラベルは検索クエリやユーザーのタグに基づいて自動生成されることが多い。その結果、ノイズラベルが発生して、DNNを効果的にトレーニングするのが難しくなるんだ。

ノイズラベルの問題に取り組むためのさまざまな戦略があるよ。半教師あり学習(Semi-SL)、自己教師あり学習、頑健なトレーニングの方法が含まれてる。これらの戦略はIDノイズの対処には進展を見せてるけど、ほとんどの方法は大きなデータセットにしばしば存在するOODノイズには十分に対処できていないんだ。

提案されたフレームワークの理解

提案された「Manifold DivideMix」フレームワークは、まず自己教師あり学習を使って利用可能なデータに基づいてモデルをトレーニングすることで機能する。これは、正しいラベルがなくてもデータの意味のある表現を作成することを目指してる。これはコントラスト学習という技術を通じて達成されるんだけど、モデルは異なる画像の類似性と違いを理解することを学ぶんだ。

自己教師ありの方法でモデルをトレーニングした後は、次のステップでトレーニングセットからOODサンプルを特定して取り除く。これはK近傍法(KNN)を使って、サンプルが残りのトレーニングデータとどれだけ似ているかをチェックすることで実現される。もし既知のクラスにうまく収まらなければ、それはOODと見なされて取り除かれる。

OODサンプルがフィルタリングされたら、残りのデータはクリーンなIDサンプルとノイズがあるIDサンプルにさらに分類される。この分類は線形分類器を使って達成され、Semi-SLトレーニングの段階のためにデータセットを精練するのに役立つ。モデルはクリーンサンプルをトレーニングに使いつつ、残りのノイズサンプルに対処するための技術を適用できるんだ。

自己教師あり学習フェーズ

自己教師あり学習フェーズでは、目標はラベルに関係なく画像から意味のある表現を学ぶことなんだ。これは、同じ画像の拡張バージョンを作成したり、コントラスト損失を適用して、これらの拡張バージョンの類似性を最大化する2つのプロセスを通じて行われる。最終的な目標は、データの本質を捉えた特徴を抽出して、モデルがさまざまなサンプルを効果的に区別できるようにすることなんだ。

各画像について、2つのランダムなデータ拡張が作成される。これらの拡張はポジティブペアとして扱われ、モデルが頑健な特徴を学ぶのを助ける。モデルが学習するにつれて、トレーニングプロセスの初期段階でOODサンプルを特定する能力が高まるんだ。

サンプル選択プロセス

自己教師あり学習フェーズの後、モデルは次のステージに向けてサンプルの選択に集中する。ここでの目的は、埋め込み空間で学習した表現に基づいてOODサンプルをフィルタリングすることだ。線形分類器が導入されて、残りのサンプルをクリーンなIDサンプルとノイズのあるIDサンプルに分類するのを助ける。

OODラベルノイズの検出は、埋め込み空間の最近傍を使って行われる。サンプルから最近傍までの平均距離が、サンプルが既知のクラスに属しているかどうかを示す。もしサンプルの距離が他のものよりかなり大きければ、それはOODと見なされてトレーニングから除外される。

加えて、IDノイズサンプルもその予測された分類に基づいて評価される。ガウス混合モデルが、サンプルがクリーンである可能性を損失値に基づいて推定するために用いられる。クリーンと分類されたものはさらにトレーニングに組み込まれ、まだノイズと見なされるものはトレーニングプロセスのさらなる反復のために監視される。

半教師あり学習フェーズ

フレームワークの最終部分はSemi-SLフェーズで、ここでモデルはフィルタリングされたデータセットを使ってトレーニングされる。この段階では、ノイズサンプルに対するモデルの頑健性を高めるために、複数のコンポーネントが含まれる。Semi-SLトレーニングは、ノイズラベルの影響を減らす対称交差エントロピー損失関数を使用していて、モデルがクリーンなデータから学ぶことに集中できるようにしているんだ。

さらに、MixEMatchっていう新しいアルゴリズムが紹介されている。このアルゴリズムは、入力データとモデルの内部表現の両方にミックスアップ拡張を適用する。トレーニング中、ミックスアップは既存の画像とそれに対応するラベルをブレンドして新しいサンプルを作り出すことで、モデルのトレーニングデータからの一般化能力を強化するんだ。

これらのコンポーネントを組み合わせることで、「Manifold DivideMix」フレームワークはラベルノイズへのオーバーフィッティングのリスクを大幅に減らす。モデルはトレーニングデータに存在するノイズに対しても頑健で、より一般的な特徴を学ぶことができる。

実験結果

提案されたフレームワークの効果は、いくつかの標準画像分類ベンチマークで行われた広範な実験を通じて実証されてる。CIFAR-10、CIFAR-100、Clothing1M、WebVisionなどの注目のデータセットがモデルのパフォーマンスを検証するために利用された。

例えば、CIFAR-100でのIDノイズとOODノイズがある実験では、既存の最先端の方法と比べて約10%の精度向上が見られた。特に、データセットが高いレベルのノイズで腐敗していたときに顕著だった。この結果は、自己教師あり学習がノイズラベルに対するモデルの頑健性を大幅に向上させて、全体的なパフォーマンスを良くすることを示している。

さらに、提案されたMixEMatchアルゴリズムは、半教師あり学習フェーズ中でもかなりの改善を示した。これは、既存の技術を超えて、ミックスアップ拡張プロセスを効果的に活用し、表現学習を強化しているんだ。

結論

要するに、「Manifold DivideMix」フレームワークは、機械学習データセットにおけるノイズラベルの問題を管理するための有望な解決策を提示している。自己教師あり学習と半教師あり技術を組み合わせることで、このモデルはIDとOODノイズの両方の影響を効果的に減らしてる。

さまざまな実験から得られた結果は、厳しいラベルノイズが存在しても精度と一般化能力を向上させる能力をモデルが持っていることを示している。この研究は、ノイズラベル管理におけるさらなる探求の道を開き、機械学習における類似の問題に対処するための新たなベンチマークを設定している。

オリジナルソース

タイトル: Manifold DivideMix: A Semi-Supervised Contrastive Learning Framework for Severe Label Noise

概要: Deep neural networks have proven to be highly effective when large amounts of data with clean labels are available. However, their performance degrades when training data contains noisy labels, leading to poor generalization on the test set. Real-world datasets contain noisy label samples that either have similar visual semantics to other classes (in-distribution) or have no semantic relevance to any class (out-of-distribution) in the dataset. Most state-of-the-art methods leverage ID labeled noisy samples as unlabeled data for semi-supervised learning, but OOD labeled noisy samples cannot be used in this way because they do not belong to any class within the dataset. Hence, in this paper, we propose incorporating the information from all the training data by leveraging the benefits of self-supervised training. Our method aims to extract a meaningful and generalizable embedding space for each sample regardless of its label. Then, we employ a simple yet effective K-nearest neighbor method to remove portions of out-of-distribution samples. By discarding these samples, we propose an iterative "Manifold DivideMix" algorithm to find clean and noisy samples, and train our model in a semi-supervised way. In addition, we propose "MixEMatch", a new algorithm for the semi-supervised step that involves mixup augmentation at the input and final hidden representations of the model. This will extract better representations by interpolating both in the input and manifold spaces. Extensive experiments on multiple synthetic-noise image benchmarks and real-world web-crawled datasets demonstrate the effectiveness of our proposed framework. Code is available at https://github.com/Fahim-F/ManifoldDivideMix.

著者: Fahimeh Fooladgar, Minh Nguyen Nhat To, Parvin Mousavi, Purang Abolmaesumi

最終更新: 2023-08-13 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2308.06861

ソースPDF: https://arxiv.org/pdf/2308.06861

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事