Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 機械学習# 計算と言語# コンピュータビジョンとパターン認識

マルチモーダルデータで人間のアクティビティ認識を強化する

新しいアプローチは、いろんなデータタイプを組み合わせてアクティビティ認識を改善するよ。

― 1 分で読む


アクティビティ認識パフォーアクティビティ認識パフォーマンスを向上させる意だよ。新しいモデルが人間の活動を認識するのが得
目次

人間の活動を認識することは、人工知能において重要なタスクで、医療、フィットネス、セキュリティ、ロボティクスなど多くの分野で活用できる。このタスクは「Human Activity Recognition(HAR)」として知られていて、カメラからの画像やスマートウォッチやスマートフォンのようなウェアラブルセンサーから得られたデータに基づいて、人が行う特定の行動を特定するものだ。

HARの成功は、利用可能なデータの質と種類に依存している。高品質のビデオは、正確な認識のために詳細な情報を提供できる。しかし、プライバシーの問題や機器の不足のために、こうした高品質の録画が利用できないことが多い。対照的に、日常的に見られるデバイスにもっと一般的に見られるウェアラブルセンサーからのデータは、しばしば限られている。これらのセンサーは、あまり情報を提供しないため、タスクがより難しくなる。

人間活動認識の課題

人間の活動は人によって大きく異なり、異なる環境で行われることもある。この変動性が活動の認識を難しくしている。特に、条件が頻繁に変わるリアルな状況では、この課題が一層顕著になる。

従来、活動を認識する方法は主に二つある。単一タイプのデータを使用する「ユニモーダル認識」と、複数タイプのデータを使用する「マルチモーダル認識」だ。ユニモーダル認識方法は、画像やセンサーデータのような一つのソースからのデータに依存する。これらの方法は効果的なこともあるが、正確な認識に必要な重要な詳細を見落とすことが多い。そのため、複数のソースからデータを組み合わせるアプローチ、つまりマルチモーダル認識が近年注目を集めている。

マルチモーダル認識の重要性

異なるタイプのデータを組み合わせることで、マルチモーダル認識は人間の活動の全体像を提供できる。例えば、ビデオとセンサーデータの両方を使用すると、各ソース単独では見落としてしまうギャップを埋めることで、認識精度が向上する。

特にコンピュータビジョンの技術の進歩により、高品質の画像で素晴らしい結果を達成することが可能になった。これには、画像を正確に解釈し記述できる大規模モデルが含まれる。しかし、良質な画像の入手はしばしば限られている。多くの日常的なシナリオでは、ウェアラブルセンサーの方が手に入りやすい。

残念ながら、これらのセンサーからのデータは、正確な認識に必要な深みが欠けていることが多い。ウェアラブルセンサーは、個人の活動を明確に示さない信号を提供することがあるため、その行動を解釈するのが難しい。また、大量のセンサーデータを収集できる一方で、学習目的のために分類されたラベル付きトレーニングデータを見つけることが大きなハードルとなっている。

改善のための主要観察事項

HARの課題に対処するにあたって、研究者や開発者を導くいくつかの重要な観察事項がある:

  1. トレーニングにおける柔軟なモダリティ:実際の使用時に利用可能な入力データは制限されるかもしれないが、トレーニング中の入力モダリティを選択する際には柔軟性がある。つまり、学習プロセスを強化するために、より広範なデータソースを利用できるということだ。

  2. 表現学習:このプロセスは、異なるデータタイプ間で知識を共有するのに役立つ。これは、さまざまなモダリティからのトレーニングデータが同期しているときに最も効果的だ。

  3. 合成データ生成:技術の進歩により、ビデオや他のソースに基づいてセンサー用の人工データを生成することが可能になった。ツールは、ビデオからシミュレートされたセンサーデータを生成できるため、直接的なセンサー読み取りがなくても意義のあるトレーニングデータを作成することができる。

提案されたアプローチ:MuJo

提案された方法、MuJoは、ビデオ、言語、ポーズ、ウェアラブルデバイスにある慣性測定ユニット(IMU)からのデータなど、さまざまなデータタイプを取り入れた統一特徴空間を学習することでHARを向上させることを目指している。MuJoは、対照的およびマルチタスク学習技術を組み合わせ、共有表現を効果的に学習するためのさまざまな戦略を分析しようとしている。

MuJoは、ビデオ、言語の説明、ポーズ、センサーデータからの並行データを含む大規模なデータセットを使用して開発を支援する。このデータセットは、不完全または低品質のデータに直面したときの共同特徴空間のパフォーマンスを分析するのに役立つ。

MM-Fitデータセットを使用した実験では、フィットネス関連のデータコレクションが示され、モデルが印象的な結果を達成できることがわかった。たとえば、利用可能なすべてのトレーニングデータを使用すると、モデルはさまざまな活動を分類する際に高いスコアを記録する。トレーニングデータのわずか2%のみを使用した場合でも、モデルはうまく機能し、人間の活動認識における効果を示している。

データ収集と処理

研究チームは、YouTubeからフィットネスビデオを数千本手動で収集し、活動を明確に示すインストラクショナルなコンテンツを持つクリップに焦点を当てた。これらのビデオには、自動生成されたキャプションが補足され、ビデオ内の行動のテキスト説明を提供している。

データの質を確保するため、単一のエクササイズに焦点を当てた短いビデオクリップのみが保持され、複数の活動を含む長いビデオは除外された。最終的なデータセットは、各インストラクショナルフィットネス活動に関連するテキスト説明とセンサーデータを伴った10,000以上のサンプルで構成されている。

データ処理には、ビデオを標準解像度およびフレームレートに変換し、関連する特徴を抽出し、ビデオコンテンツからシミュレートされたセンサーデータを生成することが含まれる。この綿密な前処理により、研究チームはモデルの効果的なトレーニングを支援する堅牢なデータセットを持つことができる。

マルチモーダル情報の活用

MuJoの核心となるアイデアは、トレーニングのために複数のモダリティからの情報を活用することだ。それぞれの短いビデオセグメントは、さまざまなソースで似た情報を示すことが期待される。各モダリティ(ビデオ、ポーズ、センサーデータ、テキスト)には独自のエンコーダーがあり、そのユニークな特徴をキャプチャし、その後、共有表現空間に整列させる。

この方法を使用すると、モデルはペアワイズ学習を適用して、各モダリティが提供する特徴間の関連を確立する。こうすることで、モデルは冗長な情報を効果的に利用して、活動の認識性能を向上させることができる。

結果と性能評価

研究者たちは、FLAG3DやMM-Fitなどの異なるデータセットでMuJoの性能を測定するための一連の評価を行った。これらの評価では、事前トレーニングを行っていないか、またはユニモーダルデータのみを使用するベースライン手法とMuJoの分類性能を比較した。

MM-Fitデータセットを使用したテストでは、MuJoは限られたトレーニングデータでも卓越した精度を示した。モデルはほとんどのケースでベースラインを上回り、マルチモーダルアプローチを使用することでHARタスクが大幅に改善されることが確認された。

未知のデータへの一般化

機械学習モデルの最も重要な側面の一つは、新しい未知のデータに一般化する能力だ。これをテストするために、研究者たちはMuJoがMM-Fitデータセットの活動を前もって露出せずに認識できるかどうかを評価した。モデルの性能は依然として強く、実世界のアプリケーションにおける効果を示している。

結果は、MuJoがトレーニングデータからうまく学習するだけでなく、未経験のデータに直面したときにもこの知識を効果的に適用することを明らかにした。これは、リアルタイム環境でHARシステムを展開するにあたって重要だ。

結論

この研究は、マルチモーダルデータを使用することで人間活動認識を改善するための有望な方向性を示している。このアプローチは、ビデオ、センサーデータ、ポーズ、テキスト説明を統合した共同表現学習の方法を導入する。合成データを生成し、さまざまな入力ソースを利用できる能力を持つMuJoは、多様な設定で人間の活動を認識するための高いパフォーマンスの可能性を示している。

技術が進歩し、データの入手可能性が増すにつれて、MuJoのような方法がフィットネスモニタリングからセキュリティ、さらにはそれ以外のアプリケーションにおいて、人間の行動を理解するためのより正確で信頼性の高いシステムにつながるかもしれない。結果は、人間活動認識の分野を進展させるためにマルチモーダルデータの重要性を強調しており、最終的にはリアルなシナリオでのより良い結果をもたらす。

オリジナルソース

タイトル: MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition

概要: Human Activity Recognition (HAR) is a longstanding problem in AI with applications in a broad range of areas, including healthcare, sports and fitness, security, and more. The performance of HAR in real-world settings is strongly dependent on the type and quality of the input signal that can be acquired. Given an unobstructed, high-quality camera view of a scene, computer vision systems, in particular in conjunction with foundation models, can today fairly reliably distinguish complex activities. On the other hand, recognition using modalities such as wearable sensors (which are often more broadly available, e.g., in mobile phones and smartwatches) is a more difficult problem, as the signals often contain less information and labeled training data is more difficult to acquire. To alleviate the need for labeled data, we introduce our comprehensive Fitness Multimodal Activity Dataset (FiMAD) in this work, which can be used with the proposed pre-training method MuJo (Multimodal Joint Feature Space Learning) to enhance HAR performance across various modalities. FiMAD was created using YouTube fitness videos and contains parallel video, language, pose, and simulated IMU sensor data. MuJo utilizes this dataset to learn a joint feature space for these modalities. We show that classifiers pre-trained on FiMAD can increase the performance on real HAR datasets such as MM-Fit, MyoGym, MotionSense, and MHEALTH. For instance, on MM-Fit, we achieve an Macro F1-Score of up to 0.855 when fine-tuning on only 2% of the training data and 0.942 when utilizing the full training set for classification tasks. We have compared our approach to other self-supervised ones and showed that, unlike them, ours can consistently improve on the baseline network performance as well as provide a better data-efficiency.

著者: Stefan Gerd Fritsch, Cennet Oguz, Vitor Fortes Rey, Lala Ray, Maximilian Kiefer-Emmanouilidis, Paul Lukowicz

最終更新: 2024-10-17 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.03857

ソースPDF: https://arxiv.org/pdf/2406.03857

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事

機械学習セキュリティ脅威の中でフェデレーテッドラーニングのプライバシーを強化する

新しい方法がフェデレーテッドラーニングのプライバシーと攻撃に対する防御を向上させるよ。

― 1 分で読む