Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識

標準カメラを使ったドライバー視線追跡システム

ダッシュボードカメラを使って運転手の注意力を監視するコスト効果の高い方法。

― 1 分で読む


新しいドライバー視線追跡シ新しいドライバー視線追跡システム視を改善する革新的な方法。日常のカメラを使ってドライバーの注意力監
目次

新しい運転中のドライバーの視線を追跡する方法を紹介するよ。このシステムは車に取り付けた2つの普通のカメラを使っていて、一つは運転手を見つめるフロントウィンドウに、もう一つは道路を見つめるダッシュボードに設置されてるんだ。交通の速さや三次元環境での距離が分からないから、ドライバーの視線を追跡するのは難しいんだよね。それに、運転手が位置を調整することでカメラとの距離も変わるし。

この問題を解決するために、ドライバーの顔と運転シーンの両方を同時に分析する特別なネットワークを作ったんだ。このネットワークにはカメラのキャリブレーションモジュールが含まれていて、ドライバーとカメラの相対位置を計算するんだ。この機能が全体のシステムのパフォーマンスを向上させて、一貫したプロセスでトレーニングができるようになるんだ。

この分野での大きな課題は、これらのシステムをトレーニングしてテストするためのデータが不足していること。これを克服するために、都市部での運転セッションの大規模なデータセットを集めて、視線データも含めたんだ。このデータセットは、道路とドライバーの顔の同期した画像を含んでいて、我々の方法の正確なトレーニングと評価が可能になるんだ。テストの結果、新しいアプローチは既存の方法よりも正確で、ドライバーが見ている場所を推定するときの平均予測誤差は約29.69ピクセルだったよ。

この研究の目的は、運転手の頭や顔の動きをモニターできる手頃なデバイスを作って、交通環境でドライバーが何に集中しているかを特定すること。これを車で量産できれば、ドライバーの意識を高めて事故を減らすのに役立つんだ。たとえば、交通標識や歩行者などの重要な情報を見落としたときにドライバーに警告を出したりすることができるし、ドライバーの注意を引いたり、気を散らせたりするものについての洞察を提供して、より良い道路設計や安全対策に繋がるんだ。

いくつかのシステムは、この目的のために特別なメガネを使ってドライバーの視線を追跡しようとしたけど、これらのメガネは高価で、普段使うには不快かもしれない。それに、視線がどこを向いているかは分かっても、視界の外で見落としているものが分からないから、これは重要だよね。ドライバーは車内のものに簡単に気を取られるし。

この制限を考慮して、ダッシュボードに取り付けたカメラを使った新しいアプローチを提案するよ。このセットアップでは、運転手の顔を捉えるカメラと、前方の道路に焦点を合わせるカメラの2つの標準カメラだけで済むんだ。私たちの焦点は、両方のカメラからの画像を処理してドライバーの視線を特定するコンピュータービジョンアルゴリズムの開発にあるんだ。

このアルゴリズムを作るのは簡単じゃない。まず、トレーニングに必要な画像や視線の注釈が組み合わさったデータセットが存在しないから。これは、おそらく遠くのカメラから運転手がどこを見ているかを正確に特定するのが難しいからだよね。そこで、私たちは10万組以上の画像ペアを集めて、大きなデータセットを作ったんだ。

ダッシュボードに取り付けたシステムのもう一つの課題は、運転中にドライバーの位置がカメラとの関係で変わること。運転中にドライバーに停止させたり、システムを再キャリブレーションさせたりするのは非現実的だから、自動キャリブレーションによる視線推定方法を開発したんだ。これにはカメラとドライバーの関係を変数として扱うことで、キャリブレーションモジュールを使って推定する仕組みなんだ。

実験では、このキャリブレーションモジュールが視線予測の精度を大幅に改善することが分かったよ。私たちの方法は29.69ピクセルの予測誤差に達していて、シーンカメラの解像度に比べてかなり小さいんだ。

関連作業

私たちの研究では、ドライバーの視線がどこを向いているかを推定する方法と、このための新しいデータセットを紹介するよ。視線推定やドライバーの行動監視に関するさまざまな研究とデータセットがあるけど、私たちのアプローチは目的と提供するデータセットが異なるんだ。

視線推定データセット

最近、視線推定のためにいくつかのデータセットが提供されているよ。有名なのはEye Chimeraで、複数の視線方向でマークされた顔の画像が含まれている。その他の例として、コロンビアデータセットやUTマルチビュー・データセットがあり、それぞれ異なる角度でのサンプルを収集したり、外見に基づく視線推定機能に焦点を当てている。このほかに、GazeCaptureデータセットはモバイルデバイスを見つめている人々の大量の画像を含んでいる。

でも、これらのデータセットはドライビングシナリオに適した視線の注釈が欠けているか、デジタル画面にしかフォーカスしていないから、私たちのニーズには合わないんだ。

ドライバー監視データセット

ドライバーの注意を監視するためのデータセットは、手の動き、体の動き、顔の動きに基づいて大きく3つのタイプに分けられる。手の動きに基づくデータセットでは、運転中のドライバーの手の使い方をキャッチするためにカメラを使い、体の動きに基づくデータセットでは上半身の動きを追跡するための横からの視点を提供する。顔の動きに基づくデータセットは、ドライバーの顔に焦点を当てて注意を追跡しようとする。

運転中の注意に関する最大のデータセットの一つはStateFarmデータセットで、いくつかの気を散らす運転行動を特定している。でも、既存の多くのデータセットは、制御された環境でキャプチャされたため、実際の運転環境を模倣していないから、その知見の実世界での活用が制限されているんだ。

視線推定方法

視線推定方法は、モデルベースと外見ベースの2つのカテゴリーに分けられる。モデルベースの方法は目の幾何学的特性を利用して特別なハードウェアを必要とするため、一般的な使用には信頼性が低くなる。一方、外見ベースの方法は普通のカメラを使って顔の画像をキャッチし、いくつかのアルゴリズム、特にニューラルネットワークを使って視線の方向を予測するんだ。

私たちのアプローチは、これらの深層学習方法の成功からインスパイアされているけど、複雑な三次元交通シーンに基づいて視線ポイントを推定するという独自の課題に取り組んでいるんだ。

ドライバーの視線ポイントデータセット

私たちの方法をサポートするために、Drivers' Points-of-Gaze(DPoG)という新しいデータセットを作ったよ。このデータセットには、市街地を運転した11人のドライバーの視線データが含まれていて、リアルな運転条件をキャッチしているんだ。さまざまな交通状況で異なるドライバーの経験を記録した19セッションから成っている。

データ収集と注釈

データ収集にはGoProカメラを使ったよ。一つはフロントウィンドウに取り付けてドライバーの顔を追跡し、もう一つはダッシュボードに置いて道路を観察した。正確な視線ポイントを得るために、データ収集の際に特別な視線追跡メガネを使ったんだ、これはトレーニングデータの収集には重要だけど、最終的な製品には必要ない。

運転セッション

合計で13人のドライバーが参加して、2週間にわたってさまざまな条件で運転したよ。各ドライバーは計画したルートに従って2〜3セッションを行った。セッションの長さは異なったけど、一般的には15分から35分程度だった。収集したデータを分析した結果、いくつかのセッションは不完全または壊れた情報のために使用できないと判断された。最終的には、11人のドライバーから得られた19の有効なセッションを保持することになったんだ。

キャリブレーションと同期

各セッションの開始時に、視線追跡メガネをキャリブレーションした。GoProカメラはその位置が敏感だったのでキャリブレーションしなかった。異なるカメラの動画を同期させるために、ドライバーは各セッションの開始時に手を叩いて、映像を揃えることができたんだ。

でも、視線追跡メガネでキャッチした視線データとGoProの映像を同期させるのはもっと難しかった。いくつかの試みを重ねた結果、視線動画のフレームレートが変わることが分かって、他の映像と揃えるのがトリッキーだった。これを解決するために、視線データから短いクリップを抽出して、それを対応する顔とシーンのクリップに手動で合わせることにしたんだ。

視線ポイントの注釈

シーン、顔、視線データを含む同期されたトリプレットフレームを大量に抽出したよ。すべてのフレームに視線ポイントがあったわけじゃないから、RANSAC-Flowという手法を使って視線ポイントをシーンフレームに合わせたんだ。手動で確認することで視線ポイントが正確であることを確認し、最終的に143,675のフレームトリプレットが得られたんだ。

ドライバーの視線ポイント推定ネットワーク

私たちは、リアルタイムでドライバーがどこを見ているかを正確に特定するシステムを作ることを目指しているよ。既存の方法が固定画面に焦点を当てるのに対し、私たちの方法は動的で三次元の環境で視線を予測しなければならない。これを実現するために、ドライバーの顔画像と周囲の運転シーンを分析するDrivers' Points-of-Gaze Estimation Network(DPEN)を開発したんだ。

ネットワークアーキテクチャと処理パイプライン

ネットワークはカメラキャリブレーションモジュールと視線回帰モジュールの2つのメイン部分から成っている。ドライバーの顔の周りの小さなエリアをキャッチして、その画像とシーン画像を使って、ドライバーとの相対的なカメラの位置を反映するキャリブレーションパラメータのセットを計算する。最終的な出力は、シーン画像の中の視線の予測位置になるんだ。

最初の部分がカメラキャリブレーションモジュールで、シーンと顔の画像を処理して、二つのカメラの関係を示すパラメータを生成する。次の部分が視線回帰モジュールで、両方の画像とキャリブレーションパラメータを使って視線ポイントを予測するんだ。

トレーニング手順

ネットワークは一度でトレーニングが可能で、推定された視線ポイントと実際の視線ポイントとの違いを最小限に抑えるようにパラメータが最適化される。特定の損失関数を使用してトレーニングプロセスをガイドして、システムを微調整するんだ。

結果

評価では、私たちのアプローチのパフォーマンスをいくつかのベースライン方法と比較するよ。システムが視線ポイントをどれだけ正確に予測できるかを実際のポイントと比較して測るんだ。異なるベースライン方法には、シーンの中心を予測するものや、運転シーン内で検出された物体に基づくものが含まれている。

私たちの方法は、これらのベースラインを一貫して上回って、29.69ピクセルの注目すべき平均予測誤差を達成したよ。AUCスコアも、私たちの方法が良く予測するだけでなく、顕著な性能も持っていることを示してるんだ。

結論

運転中のドライバーの視線を追跡するためにダッシュボードに取り付けたシステムを紹介したよ。2つのカメラを使うことで、ドライバーの顔と車外のシーンの両方をキャッチできる。システムはドライバーとカメラのセットアップ間の距離の変化にも対応していて、正確な視線推定を可能にしてるんだ。新しいデータセットも提案して、運転手の注意や安全に関する将来の研究に貴重なリソースを提供する。全体として、この研究は運転の安全性を高めたり、全体的な運転体験を改善したりするデバイスの開発に貢献してるんだ。

オリジナルソース

タイトル: Driver Attention Tracking and Analysis

概要: We propose a novel method to estimate a driver's points-of-gaze using a pair of ordinary cameras mounted on the windshield and dashboard of a car. This is a challenging problem due to the dynamics of traffic environments with 3D scenes of unknown depths. This problem is further complicated by the volatile distance between the driver and the camera system. To tackle these challenges, we develop a novel convolutional network that simultaneously analyzes the image of the scene and the image of the driver's face. This network has a camera calibration module that can compute an embedding vector that represents the spatial configuration between the driver and the camera system. This calibration module improves the overall network's performance, which can be jointly trained end to end. We also address the lack of annotated data for training and evaluation by introducing a large-scale driving dataset with point-of-gaze annotations. This is an in situ dataset of real driving sessions in an urban city, containing synchronized images of the driving scene as well as the face and gaze of the driver. Experiments on this dataset show that the proposed method outperforms various baseline methods, having the mean prediction error of 29.69 pixels, which is relatively small compared to the $1280{\times}720$ resolution of the scene camera.

著者: Dat Viet Thanh Nguyen, Anh Tran, Hoai Nam Vu, Cuong Pham, Minh Hoai

最終更新: 2024-04-11 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2404.07122

ソースPDF: https://arxiv.org/pdf/2404.07122

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事