Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識# 人工知能# 機械学習

遮蔽下の画像認識の改善

研究によると、物体が部分的に隠れているときに画像分類モデルにギャップがあることがわかった。

― 1 分で読む


隠された画像認識の洞察隠された画像認識の洞察得意だよね。モデルは隠れた物体に苦労するけど、人間は
目次

画像分類モデル、特に畳み込みニューラルネットワーク(CNN)は、画像内のオブジェクトを特定するのが得意なんだけど、オブジェクトが部分的に隠れてるとき、つまり部分的遮蔽の状況になると難しくなるんだ。モデルに見せたいオブジェクトの前に何かがあると、モデルが何を見てるのかを認識するのが難しくなるからね。

これらのモデルが部分的に隠れたオブジェクトでもうまく機能するように、研究者たちはいくつかの方法を試してきたんだ。データ拡張みたいに、画像を特定の方法で変えてモデルが学習しやすくする方法や、遮蔽に対して強い新しいモデルを作る方法、たとえばビジョントランスフォーマー(ViT)モデルなんかがある。いくつかの研究はこれらの改善がどれくらい効果的か見てるけど、人工的に作られた画像を使ってることが多くて、これらの画像は実世界の画像よりラベリングが簡単なんだ。

それに、これらのアプローチの多くは直接比較されてなくて、古いモデルだけを見てるものもあるんだ。こういったギャップを埋めるために、私たちは「遮蔽下の画像認識(IRUO)」という新しいデータセットを作ったよ。このデータセットは実世界の画像と人工的に遮蔽された画像を使って、オブジェクトが部分的に隠れているときに異なるモデルがどれくらいうまく機能するかをテストするためのもの。

データセットに加えて、人間が異なるレベルの遮蔽でオブジェクトを認識する能力を見てみるための研究も行ったんだ。私たちの発見は、新しいCNNモデルが遮蔽された画像で古いモデルよりもパフォーマンスが良くて、ViTモデルはしばしばCNNよりもさらに良いパフォーマンスを出していて、人間のパフォーマンスに近づいてることを示してる。でも、拡散遮蔽みたいな特定の遮蔽のタイプ、たとえばフェンスや葉っぱの隙間から見るときは、モデルや人間の正確さを大きく下げることがあるんだ。

背景

深層学習モデル、特に深層ニューラルネットワーク(DNN)は、視覚的にオブジェクトを認識するのにかなり成功してる。中には特定のタスクで人間のパフォーマンスを超えたものもあるんだけど、遮蔽はまだ課題なんだ。認識したいオブジェクトがシーン内の他のアイテムによって部分的に隠れていることがよくあるからね。この状況は実世界では一般的だし。

異なるモデルが遮蔽の下でどれくらいのパフォーマンスを発揮するかを理解するためには、2つの重要な質問に目を向ける必要があるんだ:

  1. 遮蔽された画像を扱うとき、どのモデルが最も正確なのか?
  2. 既存のモデルは、オブジェクトが部分的に隠れるときに信頼できるのか?人間のパフォーマンスとどう比較されるのか?

これらの質問に答えることで、開発者が遮蔽を含む作業に最適なモデルを選ぶ手助けができ、研究者が将来のモデルを改善するためのガイドにもなるんだ。

現在の課題

ほとんどの遮蔽に関する研究は、限られたクラスや合成遮蔽のみを含むデータセットを使っていて、実際の状況を正確に反映していないことが多い。実用的なアプリケーションでは、認識が遮蔽のために妨げられる実世界のシナリオで、さまざまなモデルがどれくらい機能するかを理解するのが重要なんだ。

私たちの研究では、従来のCNN、ViT、遮蔽に特化して構築されたモデルのいくつかの現在のモデルの正確さを比較したよ。それに加えて、私たちは遮蔽された画像の中で物体を認識する際の人間の正確さも評価したんだ。これによって、機械がどれくらいうまく機能するかだけでなく、人間の能力とどう比べられるかも見えてくる。

IRUOデータセット

私たちは、遮蔽されたビデオインスタンスセグメンテーション(OVIS)と呼ばれる別のデータセットの上にIRUOデータセットを構築したんだ。このIRUOデータセットは、画像分類モデルのためのより正確なテスト環境を提供するために、実世界の遮蔽された画像で構成されている。クラスは23あり、約88,000枚の画像があって、サイズや多様性が限られた過去のデータセットの欠点に対処している。

データセットはトレーニングセットとテストセットに分かれていて、トレーニングセットの画像がテストセットに含まれないように配慮している。これによって、正確さの推定にバイアスがかかるのを避けているんだ。また、データセットのサブセットも作成して、人間のテストや異なるレベルの遮蔽を検討している。これによって人間のパフォーマンスを測定し、さまざまなモデルとの関係を見ているんだ。

人間の研究

遮蔽下での人間の正確さを測るために、私たちは20人の参加者と一緒にIRUOデータセットの画像にラベルを付ける研究を行ったんだ。各参加者は、さまざまな遮蔽レベルを表すように設計された画像の選りすぐりを評価した。できるだけ多くの参加者が同じ画像に出会うようにして、比較のためのしっかりした基礎を作ったよ。

参加者には、オブジェクトを特定して画像内でクリックするように求めた。私たちは、彼らの応答をガイドするために構造化されたアプローチを使って、エラーを最小限に抑え、彼らが見ているものに集中しやすくしたんだ。これらの人間の応答の結果は、モデルのパフォーマンスを測るための尺度を提供してくれる。

モデルと人間の比較の結果

遮蔽の下で既存のモデルを評価した結果、一部の新しいモデル、特にトランスフォーマーアーキテクチャに基づくものが、古いモデルに比べてすべての遮蔽レベルでより良い正確さを示したよ。Swinモデルは、Mixupと呼ばれるデータ拡張技術と組み合わせたとき、全体的に最高の正確さを持っていた。

でも、モデルは依然として遮蔽のケースで人間のパフォーマンスと比べると劣っていた。平均して、人間は遮蔽下で最もパフォーマンスが良いモデルよりもオブジェクトをより正確に特定できた。これは特に重要で、モデルのデザインにおいて大きな進展があった一方で、まだ改善の余地があることを示しているんだ。

異なる種類の遮蔽の影響

私たちの研究は、遮蔽の種類がモデルの正確さに重要な役割を果たすことを示したんだ。たとえば、拡散遮蔽、つまり葉っぱやフェンスがオブジェクトの一部を隠す場合は、モデルをより混乱させる傾向があった。これは、オブジェクトの大部分を均一に隠す固体遮蔽よりもそうなんだ。

さらに、どのような遮蔽のタイプがモデルのパフォーマンスに影響を与えるかを調べるために追加の実験を行った。私たちの発見は、小さくて分散された遮蔽物が、大きくて固体の遮蔽物よりもモデルにとって正確さの低下をもたらすことを示唆している。この知見は、遮蔽の特性がモデルのロバスト性に大きく影響することを明らかにしている。

結論

要するに、深層学習モデルは画像認識において注目すべき進展を遂げてきたけど、部分的に隠れたオブジェクトを認識する際にはまだ課題が残ってる。IRUOデータセットや人間のパフォーマンス評価に関する私たちの研究は、改善すべき分野についての貴重な洞察を提供している。

結果は、近代的なトランスフォーマーモデルがこうしたタスクで通常のCNNを上回ることを示しているけど、特定の種類の遮蔽に直面すると、人間の能力にはまだ達していない。これらの研究は、遮蔽に配慮したモデルの分野でさらなる探求のための基盤を築き、実世界のシナリオでのパフォーマンスを向上させる新しい技術の開発を促すことになるんだ。

オリジナルソース

タイトル: Are Deep Learning Models Robust to Partial Object Occlusion in Visual Recognition Tasks?

概要: Image classification models, including convolutional neural networks (CNNs), perform well on a variety of classification tasks but struggle under conditions of partial occlusion, i.e., conditions in which objects are partially covered from the view of a camera. Methods to improve performance under occlusion, including data augmentation, part-based clustering, and more inherently robust architectures, including Vision Transformer (ViT) models, have, to some extent, been evaluated on their ability to classify objects under partial occlusion. However, evaluations of these methods have largely relied on images containing artificial occlusion, which are typically computer-generated and therefore inexpensive to label. Additionally, methods are rarely compared against each other, and many methods are compared against early, now outdated, deep learning models. We contribute the Image Recognition Under Occlusion (IRUO) dataset, based on the recently developed Occluded Video Instance Segmentation (OVIS) dataset (arXiv:2102.01558). IRUO utilizes real-world and artificially occluded images to test and benchmark leading methods' robustness to partial occlusion in visual recognition tasks. In addition, we contribute the design and results of a human study using images from IRUO that evaluates human classification performance at multiple levels and types of occlusion. We find that modern CNN-based models show improved recognition accuracy on occluded images compared to earlier CNN-based models, and ViT-based models are more accurate than CNN-based models on occluded images, performing only modestly worse than human accuracy. We also find that certain types of occlusion, including diffuse occlusion, where relevant objects are seen through "holes" in occluders such as fences and leaves, can greatly reduce the accuracy of deep recognition models as compared to humans, especially those with CNN backbones.

著者: Kaleb Kassaw, Francesco Luzi, Leslie M. Collins, Jordan M. Malof

最終更新: 2024-09-16 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2409.10775

ソースPDF: https://arxiv.org/pdf/2409.10775

ライセンス: https://creativecommons.org/licenses/by-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事