写真と混乱した画像に対する神経反応
研究がV4ニューロンが異なる画像タイプにどのように反応するかを明らかにした。
― 1 分で読む
目次
人間と猿は、写真の中の物体を認識するのが得意なんだ。この物体を認識する能力は、脳の特定のエリア、特に視覚野に関連しているんだよ。プロセスは、V1と呼ばれる最初の視覚エリアから始まり、V2やV4を経て、最終的に下側頭皮質(IT)に到達するんだ。ITのニューロンは、異なる物体を区別できて、物体を認識するタスクで人間がどれくらいうまくやるかを予測することもできるんだ。ITのニューロンの反応はよく知られてるけど、この物体認識プロセスの早い段階についてはまだ多くのことがわかっていないんだ。
最近、研究者たちは、V2のニューロンがV1では検出できない複雑なパターンに敏感であることを発見したんだ。テクスチャの見え方に基づいたモデルを使って、自然なテクスチャを持つ画像を作成し、それを平坦なノイズ画像と比較したんだ。V2のニューロンは、自然なテクスチャを持つ画像に対して、ノイズ画像よりも強い反応を示したんだけど、この強い反応が画像が現れてから少し時間がかかって発展したんだ。
V4のニューロンの働きについては、あまりはっきりしてないんだ。V4は、物体に焦点を当てた表現を作るのを助けていると考えられているよ。V4のいくつかのニューロンは物体の曲線に強く反応して、これらの反応は物体が画像のどこにあってもあまり変わらないみたい。V4は、テクスチャモデルから作成されたノイズ画像よりも写真に対してより多く反応するようだね。
この研究では、V4のニューロンがはっきりした写真からスクランブルされた画像まで、さまざまな画像にどう反応するかを知りたかったんだ。画像の見ているエリアのサイズを変えることで、写真からスクランブルされたテクスチャに徐々に移行する画像を作成したよ。写真はV4のニューロンにより多くの応答を引き起こすことがわかったし、このモジュレーションはニューロンが画像に最初に反応した時よりも後に起こったんだ。
画像生成
私たちの研究のために、2つのソースから20枚の大きな写真を選んだんだ。画像の半分はボツワナのバブーンの生息地で撮られたもので、残りは日常の物体を示しているよ。これらの画像は、主な物体を強調するために注意深く切り取ったんだ。切り取った後、すべての画像は分析用の標準サイズにリサイズされたよ。
スクランブルされた画像を作成するために、画像の特定のエリアでテクスチャをスクランブルする方法を使ったんだ。これらのエリア内で異なるテクスチャ統計を測定することで、最初にランダムなノイズから始めて、最終的に元の写真のテクスチャ統計に合うようにピクセルを調整して新しい画像を生成したんだ。
私たちは、各写真の複数のバージョンを作成し、画像を少し動かして異なるレベルでスクランブルしたんだ。これにより、スクランブルされたバージョンから元の画像へとスムーズに移行する一群の画像が生成されたよ。
実験手順
実験は動物のケアに関するガイドラインに従って設計され、適切な倫理委員会によって承認されたんだ。高速度のアイ・トラッキングシステムを使って、猿が試行中にどこを見ているかを監視したんだ。各試行は、猿が点に焦点を合わせたときに始まり、その後短時間だけ画像が現れて消えたよ。
猿が目覚めている間に、特定のエリアから脳の活動を記録できる装置を外科的に埋め込んだんだ。さまざまなタイプの電極を使用して、V4エリアの多くのニューロンの反応を記録したよ。私たちは、提示した画像に一貫して反応したニューロンに注目したんだ。
発火率の分析
ニューロンの反応を発火率を見て分析したんだ。異なる画像に反応する際のニューロンの発火頻度を比較することで、画像のスクランブルがどれくらい影響を与えたかを判断できたよ。
ニューロンの反応が異なる画像によってどれだけ変わるかを定量化するために、分数分散を計算したんだ。これにより、同じ画像を繰り返し提示したときの反応の違いが、一方で異なる画像に対しての違いと比べてどれくらい一貫しているかを確認できたよ。
また、各ニューロンに対してモジュレーションインデックスを計算したんだ。このインデックスは、ニューロンが写真画像を好むかスクランブルされた画像を好むかを示しているよ。異なる条件での反応を平均することで、V4がどのように反応したかについてポピュレーションレベルの理解を得られたんだ。
画像ファミリーのランキング
ニューロンが写真画像に対してどのように反応するか、スクランブルされた画像と比較して異なるパターンがあるか見たかったんだ。それをするために、反応を引き起こす強さに基づいて画像をランキングしたんだ。画像をトレーニングセットとテストセットに慎重に分けることで、結果の過剰適合を避けたよ。
私たちの分析では、ニューロンが様々な画像ファミリーを提示されたときに異なる反応を示したんだ。いくつかのファミリーは強い反応を引き出したが、他のファミリーはそうではなかったよ。ニューロンが好む画像ファミリーと、スクランブルされた画像に対する反応の関係を探ったんだ。
画像スクランブルによるモジュレーション
V4のニューロンの反応は、写真画像かスクランブル画像かによって大きく異なったんだ。ほとんどの細胞は写真画像にポジティブに反応したけど、いくつかはあまり好みを示さなかったし、少数はスクランブルされた画像を好むことさえあったんだ。
私たちの分析では、特定の画像ファミリーが、画像スクランブル中のニューロンのモジュレーションにどれだけ影響を与えるかを見つけたよ。これは、V4のニューロンが処理している画像ファミリーの特定の特性に基づいて応答を適応させることができることを示しているんだ。
応答のダイナミックレンジ
V4のニューロンは、スクランブルされた画像よりも写真画像に対して広い応答範囲を持っていることを発見したんだ。これは、V4が画像を処理する際に、写真に見られる特徴に対してより敏感であることを示唆しているよ。
さまざまな条件における発火率の変動を見た結果、通常、写真はスクランブルされた画像よりもニューロンの活動に大きな変化を引き起こすことがわかったんだ。この発見は、V4における視覚処理が、自然な画像に対してより堅牢であることを示唆しているよ。
モジュレーションの遅い出現
画像のスクランブルによる反応のモジュレーションは、発展するのに時間がかかることを観察したんだ。ニューロンは特定の時点で画像に反応したけれど、さまざまなレベルのスクランブルされた画像に対する反応が異なり始めるのはもっと後だったよ。
この遅い出現は、V4の処理スタイルに関連しているかもしれない。これが、スクランブルされた画像を解釈するのに他の視覚エリアからのフィードバックを必要とするかもしれない脳の追加回路が関与していることを示しているかもしれないね。
画像類似性メトリクスによる応答の予測
いくつかの確立された画像メトリクスがニューロンの反応を理解する手助けになるか調べたかったんだ。それをするために、V4の反応に基づいて異なる画像条件間の距離を計算したんだ。これにより、さまざまなメトリクスがニューロンの反応パターンをどれだけ予測できるかを見ることができたよ。
DISTSと呼ばれるメトリクスが、写真画像とスクランブルされた画像の両方に対するニューロンの反応を特によく予測できることがわかったんだ。このメトリクスは、画像の重要な特徴を考慮に入れつつ、些細な変動を無視するように設計されているんだ。
結論
私たちの発見は、V4のニューロンがスクランブル画像よりも写真に対して強く反応することを示しているよ。たとえスクランブルが最小限でも、このモジュレーションは発展するのに時間がかかり、初期の反応の後もしばらく続くんだ。
全体的に、この結果はV4が自然物体の画像を処理する重要な役割を果たしているという考えを支持していて、この脳のエリアが整然とした画像とより混沌としたスクランブル画像に対して異なって応答することを示唆しているんだ。この研究は、物体認識におけるV4のユニークな貢献と、脳における視覚処理の複雑さを示していて、私たちがさまざまな視覚入力をどのように認識し区別するかについての洞察を提供しているんだ。
タイトル: Responses of neurons in macaque V4 to object and texture images
概要: Humans and monkeys can effortlessly recognize objects in everyday scenes. This ability relies on neural computations in the ventral stream of visual cortex. The intermediate computations that lead to object selectivity are not well understood, but previous studies implicate V4 as an early site of selectivity for object shape. To explore the mechanisms of this selectivity, we generated a continuum of images between "scrambled" textures and photographic images of both natural and manmade environments, using techniques that preserve the local statistics of the original image while discarding information about scene and shape. We measured the responses of single units in awake macaque V4 to these images. On average, V4 neurons were slightly more active in response to photographic images than to their scrambled counterparts. However, responses in V4 varied widely both across different cells and different sets of images. An important determinant of this variation was the effectiveness of image families at driving strong neural responses. Across the full V4 population, a cells average evoked firing rate for a family reliably predicted that familys preference for photographic over scrambled images. Accordingly, the cells that respond most strongly to each image family showed a much stronger difference between photographic and scrambled images and a graded level of modulation for images scrambled at intermediate levels. This preference for photographic images was not evident until [~]50 ms after the onset of neuronal activity and did not peak in strength until 140 ms after activity onset. Finally, V4 neural responses seemed to categorically separate photographic images from all of their scrambled counterparts, despite the fact that the least scrambled images in our set appear similar to the originals. When these same images were analyzed with DISTS (Deep Image Structure and Texture Similarity), an image-computable similarity metric that predicts human judgements of image degradation, this same pattern emerged. This suggests that V4 responses are highly sensitive to small deviations from photographic image structure.
著者: J. Anthony Movshon, J. D. Lieber, T. D. Oleskiw, E. P. Simoncelli
最終更新: 2024-02-23 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.02.20.581273
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.02.20.581273.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。