人間の目の動きを利用してビジョントランスフォーマーを改善する
この研究では、アイ・トラッキングが運転タスクにおけるビジョントランスフォーマーのパフォーマンスをどう向上させるかを調べてるよ。
― 1 分で読む
目次
近年、ビジョントランスフォーマー(ViT)と呼ばれるコンピュータモデルが、視覚タスクの実行で大きな進歩を遂げて、人間の能力を上回ることもあるんだ。これらのモデルは、物体認識や行動分類、さらには自動運転車のアシストなど、画像や動画を処理してタスクをこなす。だけど、ViTたちは依然として医療画像の解釈や運転判断のような、人間の判断が重要な複雑なタスクには苦戦しているんだ。これは、人間の視覚的理解と機械学習モデルとの間に、より深い結びつきを必要としていることを示してる。
人間の視線追跡の重要性
ViTを改善する一つの方法は、人間の視覚入力を、特に眼球追跡技術を統合することだ。眼球追跡デバイスは、ある人がどこを見ているかを正確に記録できて、注意の焦点を明らかにするんだ。これらの注視点は、人間が周囲をどう認識するかを理解するために不可欠で、AIモデルの改善にも貴重な洞察を提供できる。
眼球追跡データを取り入れることで、ViTモデルに運転中に人間が最も重要だと考えるエリアを知らせることができる。これによって、モデルの精度が様々な状況で高まる可能性があって、視覚的コンテキストをより繊細に理解できるようになる。
注視領域と意思決定
この研究では、人間の注意が注視点として表されて、それがViTモデルがより良い運転判断をする手助けになるかに焦点を当てている。左折と右折の選択に対する注視領域を分析することから始めて、人間の被験者から生成された注視マップとViTモデルの注意重みを比較することで、両者が視覚情報をどう処理しているかを見つける。
人間が運転中にどこを注視しているかを理解することで、モデルを精度を失うことなく簡素化できる。つまり、モデルをよりシンプルで速くしながら、効果的さを維持できるってことだ。
ジョイントシーン-注視注意
モデルが運転シーンと人間の注意データに基づいて意思決定を行う能力を向上させるために、「ジョイントシーン-注視」(JSF)注意と呼ばれる新しい方法を導入する。この方法は、運転シーンの視覚情報と眼球追跡から集めた注視データを組み合わせることを目的としている。これにより、ViTモデルが環境と人間の視覚行動の両方から学ぶための、よりホリスティックな入力を作成する。
JSFの実装
我々のアプローチでは、一つのフレームに運転シーンが含まれ、もう一つのフレームには注視マップが重ねられた二フレームのシーケンスを使用する。両方の入力を一緒に処理することで、モデルにとってリッチなコンテキストを提供して、人間がするようにシーンの関連エリアに集中できるようにするんだ。
注視-注意交差損失
モデルの学習プロセスをさらに洗練させるために、「注視-注意交差」(FAX)損失と呼ばれる新しい損失関数を導入する。この関数は、モデルが運転タスク中に人間が注視するエリアにもっと注意を向けるように促す。モデルが人間の注視エリアに注意を合わせるように訓練することで、そのパフォーマンスを大幅に向上させることができる。
モデルのトレーニング
JSFとFAXを通じた注視データの統合は、モデルの精度を向上させ、トレーニングエポックが少なくて済むようになる。つまり、モデルは広範なトレーニングなしで効果的に学習できるってわけで、時間とリソースを節約できるんだ。
運転における眼球追跡の重要性
運転コンテキストにおける眼球追跡研究は、人間のドライバーが意思決定に必要な重要な情報を提供するエリアに焦点を合わせる傾向があることを示してる。人々がどのように視線を向けるかを分析することで、自動運転車の自動化システムを向上させることができる。この技術は人間の行動を解釈するのに役立って、システムをより反応的で安全にする。
眼球追跡システム
現在の研究は、ドライバーの注意や警戒感を監視するために眼球追跡を応用することが多い。これらのシステムは、ドライバーがどこを見ているかを決定するために注視座標を使用して、道路に集中しているのか気を散らしているのかを知る手がかりを提供する。ドライバーが注意を払っていないときに識別できれば、システムは警告を出したり、予防策を講じたりできる。
眼球追跡は自動運転車の能力を向上させることもできて、次の車線変更やターンなどのドライバーの意図を予測することができる。視線パターンを解釈することで、自律システムはそれに応じて行動を調整できて、道路上の安全性と効率を確保するんだ。
人間と機械の意思決定
人間は不確実性の中でセンサーモーターの意思決定をするのが得意だ。例えば、通りに曲がるとき、人間はさまざまな情報を同時に処理してベストな決定を下すことができる。最近のロボティクスの進展は、この能力を再現することを目指していて、人工システムの意思決定の柔軟性を向上させている。
視覚的注意は、眼球追跡を通じて測定できて、人間が意思決定をする方法に重要な役割を果たしている。研究によると、視覚的注意は情報処理の初期段階で特に重要で、その時にどの情報がタスクにとって最も重要かを決定するのを助けるんだ。
統合のための提案された方法
我々の統合アプローチは、人間の注視データとビジョントランスフォーマー(ViT)モデルを組み合わせるための三つの主要な方法を含む:
入力の周辺マスキング:この方法は、注視される傾向のない視覚エリアの外側の無関係な領域を取り除くことによって入力を強化することに焦点を当てている。注目の主要なエリアを孤立させることで、モデルの学習プロセスを改善できる。
注視マップでの入力拡張:モデルの入力に注視マップを追加することで、興味のある領域に関する追加情報を提供する。この余分なコンテキストがモデルの意思決定を改善するのに役立つ。
カスタム損失関数:FAX損失は、モデルの注意を人間の注視と整合させるのに役立って、予測を行うときに重要なエリアに集中するようにモデルが学習するのを確実にする。
方法の効果を評価する
実験を通じて、提案されたアプローチの精度をViTモデルの基本性能と比較する。結果は、人間の注視データを活用した方法が、さまざまな不確実性条件において著しく良い成果をもたらすことを示している。
使用したデータセット
提案された方法の効果を評価するために、VR運転データセットとDR(eye)VEデータセットという二つのデータセットを使用した。VRデータセットは制御された環境での運転体験をシミュレートするように設計されていて、DR(eye)VEデータセットは実際の運転シナリオをキャッチする。
トレーニング設定
トレーニングプロセスは、データセットをトレーニング、検証、テストのセグメントに分けることを含む。モデルは、精度やパフォーマンスメトリクスに基づいて評価されて、運転判断をどれだけ正確に予測できるかを包括的に評価する。
モデルのパフォーマンスと発見
人間の注視データを統合することで、両方のデータセット全体でパフォーマンスメトリクスが一貫して向上する。モデルはより良い精度を示し、トレーニングエポックも少なくて済むことから、人間中心の入力を使用するメリットを示している。
視覚的注意とモデルの注意
人間とモデルの間で視覚的注意を分析すると、明確な違いが観察される。モデルはフレーム全体に注意をより広く分配する傾向がある一方で、人間の注視は特定のエリアにより集中する。この違いは、モデルの焦点を人間の視覚的行動により密接に合わせる必要性を強調している。
今後の研究への影響
この研究から得られた洞察は、人工知能の分野における今後の研究に影響を与えることができる。人間の注視データの重要性を認識することで、人間のような意思決定プロセスを取り入れたより洗練されたモデルを開発できる。これは、運転や医療といった重要な領域における自動化システムの信頼性と安全性を向上させることができる。
応用の拡大
自動運転を超えて、人間指導型のアプローチの統合は、専門的な判断が重要なさまざまな視覚タスクに影響を与える可能性がある。医療画像分析からロボティクスまで、これらの方法は人間の注意をよりよく理解することでモデルのパフォーマンスを向上させる新しい道を開くことができる。
結論
結論として、我々の研究は、人間の眼球追跡データとビジョントランスフォーマーを組み合わせることで、微妙な理解と意思決定を必要とするタスクにおけるパフォーマンスを向上させる可能性を示している。人間の注視パターンから得られるユニークな洞察を活用することで、より正確で、人間のような知覚をエンコードできるAIシステムを開発できる。技術が進化するにつれて、人間の認知と機械学習の協力関係が人工知能の分野における大きな進歩をもたらし、安全で効果的な自動化システムの道を切り開くことになるんだ。
タイトル: Fixating on Attention: Integrating Human Eye Tracking into Vision Transformers
概要: Modern transformer-based models designed for computer vision have outperformed humans across a spectrum of visual tasks. However, critical tasks, such as medical image interpretation or autonomous driving, still require reliance on human judgments. This work demonstrates how human visual input, specifically fixations collected from an eye-tracking device, can be integrated into transformer models to improve accuracy across multiple driving situations and datasets. First, we establish the significance of fixation regions in left-right driving decisions, as observed in both human subjects and a Vision Transformer (ViT). By comparing the similarity between human fixation maps and ViT attention weights, we reveal the dynamics of overlap across individual heads and layers. This overlap is exploited for model pruning without compromising accuracy. Thereafter, we incorporate information from the driving scene with fixation data, employing a "joint space-fixation" (JSF) attention setup. Lastly, we propose a "fixation-attention intersection" (FAX) loss to train the ViT model to attend to the same regions that humans fixated on. We find that the ViT performance is improved in accuracy and number of training epochs when using JSF and FAX. These results hold significant implications for human-guided artificial intelligence.
著者: Sharath Koorathota, Nikolas Papadopoulos, Jia Li Ma, Shruti Kumar, Xiaoxiao Sun, Arunesh Mittal, Patrick Adelman, Paul Sajda
最終更新: 2023-08-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.13969
ソースPDF: https://arxiv.org/pdf/2308.13969
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。