Simple Science

最先端の科学をわかりやすく解説

# 計量生物学# 人工知能# コンピュータビジョンとパターン認識# ロボット工学# ニューロンと認知

脳のメンタルシミュレーションに関する新しい見解

研究によると、脳は複雑なモデルを使って未来の出来事をシミュレートしているらしい。

― 1 分で読む


脳の予測を解読する脳の予測を解読するする見解を広げている。研究が脳が未来の出来事を予測する方法に関
目次

人間と動物は、物理的な世界を深く理解していて、それをもとに未来の物体や出来事がどうなるかを予測することができるんだ。この能力のおかげで、計画を立てたり、自分の行動の結果を予測したりできる。でも、そういう考え方を可能にする脳のシステムは、まだ完全には理解されていないんだ。

この研究では、研究者たちは先進的なコンピューターモデリングと詳細な脳活動データ、そして広範な人間の行動テストを組み合わせてる。目的は、脳が複雑で動的なシーンの中で未来をどう予測するかを解明すること。彼らは、人間や動物がさまざまな環境で未来の状態を予測する仕組みを模倣するようにデザインされたコンピューターネットワークを使っている。

研究の結果、サイズだけでは成功する予測には足りないことがわかった。最先端の機械学習モデルの多くは、脳活動や人間の行動のベンチマークにはうまく機能しなかった。特定のタイプのモデルだけがデータと強い一致を示した。このモデルは、動画用にデザインされた複雑なモデルの隠れ層で未来の条件を予測するように訓練すると、脳の反応をよりよく予測できたんだ。

面白いことに、こうしたモデルは、訓練されていない状態でも、当時は明確に見えない環境の状態を予測することもできる。すべての層が同じように機能するわけではなく、幅広いタスクをサポートする動画表現に焦点を当てた層は、一貫して人間のエラーや脳の活動と一致した。

これらの発見は、脳のメンタルシミュレーションのプロセスが特定の好みに大きく影響されていて、視覚情報を使って未来の出来事を予測するために最適化されていることを示している。数秒で新しいシーンについて複雑な判断を下すことができるんだ。

認知科学の一般的な考え方として、脳は周囲の世界のメンタルイメージやモデルを形成し、それを使って次に何が起こるかを予測するっていうのがあったんだけど、ここ10年でこの考えは、人間の行動と未来の物理的イベントをシミュレートするコンピューターモデルを比較した研究から支持を得てきた。

最近の研究では、霊長類の脳の構造において重要な部分である前頭頭頂ネットワークでのメンタルシミュレーションの神経基盤が示された。このネットワークは、こうした予測を処理するために連携する複数の領域を含んでいる。

脳がこの分野でどう働いているかを理解するために、研究者たちは、この行動を豊かで自然な設定で示すモデルを構築している。彼らは、さまざまな環境でメンタルシナリオを効果的にシミュレートするためのデザインや訓練のバイアスを見つけ出したいと考えている。これには、新しい状況でのモデルの反応だけでなく、まったく異なる設定にどれだけ適応できるかも含まれる。

環境の物理的ダイナミクスを予測することは、リアルな文脈で行動できる人工知能を進歩させるために重要なんだ。これらのモデルに未来の行動を予測させる一般的な方法は、シーケンスの次のフレームをすべての詳細に焦点を当てて予測させること。でも、このアプローチでは物理的ダイナミクスの全体的な理解をうまくキャッチできないかもしれない。

別の戦略としては、大量の画像や動画を使って訓練された視覚的「ファウンデーションモデル」を作成することがある。これらのモデルは世界の一般的な表現を発展させ、その後、ロボット操作のようなタスクに応用される。物理的予測に特化しているわけではないけれど、動的モデルを組み込んで動く物体を分析させることが役に立つかもしれない。

研究者たちは、これらの動的モデルが新しいシナリオでの能力をテストして、動物や霊長類のパフォーマンスと比較することで、物理的相互作用について本当に学んだのかを知りたいと考えている。結果は、動物が環境をシミュレートする能力には重要な限界があることを示している、特に多様な状況ではね。

重要な発見は、小さなグループのモデルが、ボールの軌道が部分的に隠されているボールインターセプションタスクにおける霊長類の情報処理とよく一致することだ。全体的に見て、ある種のモデルが、動画ファウンデーションモデルの潜在空間で未来を予測する能力で、人間の行動や脳の反応と密接に一致することが際立っている。

メンタルシミュレーションの検証

メンタルシミュレーションの研究は最近、神経活動に焦点を移した。今まで、メンタルシミュレーションに関するほとんどの調査は、脳の血液活動を観察することに基づいていて、実際の神経機能を反映しているか確認するためには必要な詳細がなかった。

以前の研究では、サルの前頭皮質からの神経応答が、特定の機械学習モデルの予測と同期していることが示された、特に「メンタルポン」というボールインターセプションゲームの時に。ボールの軌道を障害物の背後で追跡し、結果を計算モデルと比較するのが目的だった。

サルは少ない訓練でこうしたタスクを行えるから、彼らにはメンタルシミュレーションの固有の能力があることを示唆している。研究者たちは、特定の分野で広く訓練されていなくても、新しいタスクに一般化できるモデルを開発したいと考えている。

重要な課題は、これらのモデルが物理的なシーンをどれだけ理解しているか、どれだけ正確に脳の予測を模倣できるかを評価するための共通基準を見つけることだ。モデルは特定のルールに従う必要がある:非構造的な視覚入力を扱え、シーンに基づいて物理的予測を生成し、生物学的ユニットと比較できる内部ユニットを持つこと。

これが「感覚認知ネットワーク」の範囲を生み出すことにつながる。これには、ある種のアプローチが地面真実データに過度に依存することや、必要な要件を満たさないことを除外する、さまざまな機能的に合理的な仮説が含まれている。

モデルは、日常的な物理的状況をシミュレートするデータセット「Physion」でテストされている。このデータセットには、剛体や軟体の物体に関するシーンが多数含まれている。また、実世界の動画を含む「Kinetics-700」という大きなデータセットもあるモデルもある。

いくつかの異なるモデルグループが評価されている。これには、ピクセルデータに基づいて未来のフレームを予測するエンドツーエンドモデルや、物体とその関係を考慮する構造化モデルが含まれている。どのアプローチがメンタルシミュレーションプロセスに関する洞察をより良く提供するかを判断することを期待している。

人間の行動からの予測

これらのモデルがどれくらい効果的かを評価するために、研究者たちは「物体接触予測(OCP)」というタスクで人間の予測と比較している。このシナリオでは、参加者が物体が接触するかどうかを運動物理に基づいて予測する。モデルのパフォーマンスは、人間の正確さと予測の一貫性に対して測定される。

結果は、ピクセル単位の未来の予測で訓練されたモデルが、人間の予測に対して最も高い精度を示すことを示している。これらのモデルの成功は、特に物体間に複雑な相互作用があるタスクで、人間の判断パターンを予測する能力と強い相関を持っている。

剛体ダイナミクスに関する特定のタスクでは、ベストなモデルが人間のパフォーマンスに近い予測を達成する。一方で、ソフトボディダイナミクスが関わるシナリオでは苦戦しており、予測能力にギャップがあることを示している。

人間の信頼性の観点から、比較によると、モデルはこれらのタスクでうまく機能できるが、しばしば人間の一貫性スコアには及ばない。これは、まだ大きな改善の余地があることを示唆している。

神経反応ダイナミクスの理解

モデルのパフォーマンスをより深く理解するために、研究者たちはボールインターセプションタスク中の霊長類の脳の一部からの神経活動を分析している。これにより、モデルの予測が実際の神経応答とどれだけ一致しているかを確認できる。

発見は、動画ファウンデーションモデルからの動的装備を持つモデルだけが、タスク中の脳の動作を予測するのに強い成功を示すことを強調している。しかし、動的要素を取り入れない静的モデルはあまりうまく機能しなかった。

特定の動く物体に焦点を当てると、動的シーンで訓練されたモデルが、静的画像だけに依存するモデルよりも優れている。また、基本的な動的フレームワークを組み込んだモデル、例えば簡単な再帰的神経ネットワークも期待できることを示している。

研究者たちは、モデルが神経活動を予測する能力と、シーン内の物体の動きをシミュレートする能力の間の関連性を確立することができた。さまざまなモデルがテストされ、いくつかはボールの位置を隠した状態での予測品質に近づくことができた。

このモデルの比較は、モデルの効果と予測能力の間には強い関係があることを示す一方で、特定のデザインが全体的なパフォーマンスを制約していることも示している。動画特定の目的で訓練されたモデルは、一般的な画像データで訓練されたものよりも良い成果を上げた。

神経の予測性と行動の関係に注目することで、研究者たちはメンタルシミュレーションを支える神経メカニズムに関する重要な洞察を得ることができる。これには、注意や動き、不確実性がモデルと脳の予測に与える影響を理解することが含まれます。

改善のための将来の方向性

今後、これらのモデルを向上させるためにいくつかの方法がある。一つの焦点は、視覚データの時間的関係をよりよく活用するためにエンコーディング構造を改善することだ。これにより、再利用可能な表現につながる。

現在の固定されたオブジェクトスロットモデルは良い結果を出さないので、より柔軟でオブジェクト中心のアプローチが予測性能を改善できることを示唆している。これには、動的なオブジェクトスロットや、より大きなデータセット内での構造的マスキングを利用することが含まれるかもしれない。

また、オブジェクトやその特性の時間による自然な変化を反映する複数のタイムスケールを取り入れることで、ダイナミクスアーキテクチャを改善する機会もある。これらの段階的な改善を統合することで、さまざまなシナリオにおける物理的相互作用の理解が深まるかもしれない。

全体的に、メンタルシミュレーションの神経的基盤を理解する重要性が高まっている。人工知能の進展と、人間や動物の認知を同時に理解することで、現実の世界で効果的に機能するシステムが開発できる。

機械学習を人間の認知プロセスに合わせる努力は、メンタルシミュレーションの理解を深めるために重要な役割を果たす。人間の行動、神経のダイナミクス、予測モデルの間の関係が、最終的には物理環境内でシームレスに機能する、より洗練された正確なAIシステムの開発を導くことになるだろう。

オリジナルソース

タイトル: Neural Foundations of Mental Simulation: Future Prediction of Latent Representations on Dynamic Scenes

概要: Humans and animals have a rich and flexible understanding of the physical world, which enables them to infer the underlying dynamical trajectories of objects and events, plausible future states, and use that to plan and anticipate the consequences of actions. However, the neural mechanisms underlying these computations are unclear. We combine a goal-driven modeling approach with dense neurophysiological data and high-throughput human behavioral readouts to directly impinge on this question. Specifically, we construct and evaluate several classes of sensory-cognitive networks to predict the future state of rich, ethologically-relevant environments, ranging from self-supervised end-to-end models with pixel-wise or object-centric objectives, to models that future predict in the latent space of purely static image-based or dynamic video-based pretrained foundation models. We find strong differentiation across these model classes in their ability to predict neural and behavioral data both within and across diverse environments. In particular, we find that neural responses are currently best predicted by models trained to predict the future state of their environment in the latent space of pretrained foundation models optimized for dynamic scenes in a self-supervised manner. Notably, models that future predict in the latent space of video foundation models that are optimized to support a diverse range of sensorimotor tasks, reasonably match both human behavioral error patterns and neural dynamics across all environmental scenarios that we were able to test. Overall, these findings suggest that the neural mechanisms and behaviors of primate mental simulation are thus far most consistent with being optimized to future predict on dynamic, reusable visual representations that are useful for Embodied AI more generally.

著者: Aran Nayebi, Rishi Rajalingham, Mehrdad Jazayeri, Guangyu Robert Yang

最終更新: 2023-10-25 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.11772

ソースPDF: https://arxiv.org/pdf/2305.11772

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事