画像から人間のインタラクションをモデル化する
新しいモデルが2D画像を使って社会的なやり取りを分析して、3Dの行動をシミュレートするんだ。
― 1 分で読む
人間のやり取りは、日常生活でめっちゃ大事だよね。人が一緒にいるのを見ると、その位置や動作が関係や気持ちについてたくさんのことを教えてくれる。でも、こういうやり取りを3次元(3D)で理解するのは簡単じゃないんだ。従来の研究方法は、特定の3Dデータを集めることに頼ることが多くて、時間がかかって大変なんだよね。それよりも、人がやり取りしている画像を使う方がいいアプローチなんだ。この方法で、社会的な状況で人がどう振る舞うかのモデルをもっと良くできるんだ。
プロクセミクスって何?
プロクセミクスは、人が他の人との関係でどんなふうに位置を取るかを指すんだ。例えば、友達が近くに立っていると、親密度が高いことを示してる。一方、見知らぬ人同士が距離を取って立っていると、フォーマルな感じがするんだ。この空間的な関係が、社会的な合図を示していて、私たちのやり取りをガイドしてる。プロクセミクスを研究することで、人間の行動についてもっと学べるんだ。
社会的なやり取りを理解するアプローチ
この研究では、2Dの画像から3Dの社会的なやり取りを学べるモデルを作ることに焦点を当てているよ。これは、2人が近くでやり取りしている様子を表現するプロセスを使ってるんだ。一緒に写ってる人たちの画像を分析して、それを使っていろんな3Dのやり取りをシミュレーションできるモデルを訓練するんだ。
データの収集
人の画像にはたくさんの情報があるけど、2人以上がやり取りしてる3Dデータを集めるのは難しいんだ。それを解決するために、画像から「擬似的なグラウンドトゥルース」3Dモデルを作る方法を開発してるよ。既存の技術を使って、画像の中での人の位置に基づいて3Dの形やポーズを生成してるんだ。
データから学ぶ
生成した3D表現を使ってモデルを訓練するよ。モデルは、典型的なやり取りがどういうものかを学ぶことで、ランダムノイズみたいなシンプルなスタートポイントから新しいやり取りを生成できるんだ。これにより、詳細な注釈なしでも人がやり取りするリアルな表現を作れるんだ。
画像を使うメリット
画像を使うことで、いろんな利点があるよ。さまざまな社会的な状況における人々を写した写真がたくさんあるから、実際のやり取りを反映した豊富なデータセットが得られるんだ。私たちが作ったモデルは、人がハグしたり、スポーツをしたり、ただ近くに立ったりするような、いろんなやり取りを生成できるんだ。この柔軟性は、バーチャルリアリティやアニメーションでリアルなシーンを作るのに役立つよ。
モデルの検証
モデルがうまく機能するかを確かめるために、ユーザー研究を通じて検証してるんだ。ボランティアにモデルが生成したやり取りが実際の画像と比べてどれくらいリアルに見えるか評価してもらってる。フィードバックは、モデルが人間のやり取りのニュアンスをどれだけ捉えているかを理解するのに役立つんだ。結果は、私たちのモデルが既存の方法よりも説得力のあるやり取りを作れることを示してるよ。
画像からやり取りを再構築する
やり取りを生成するだけでなく、私たちのアプローチは1枚の画像から2人がどんなふうに3Dでやり取りするかを再構築することもできるんだ。このプロセスでは、開発したモデルを使って3Dポーズを最適化するんだ。特定の注釈に頼るのではなく、社会的なやり取りの学習した原則を使ってモデルをガイドするんだ。最適化プロセスでは、画像のコンテキストに合うようにポーズを調整するよ。
アプリケーション
この研究から得られた洞察は、さまざまな分野で応用できるんだ。例えば、拡張現実(AR)では、仮想環境にリアルな人の表現を加えられる。ビデオゲームや映画では、信じられるキャラクターのやり取りを作ることで物語を強化できるよ。さらに、社会的ロボットにも役立つアプローチで、人間の行動をよりよく理解する手助けができるんだ。
課題と今後の研究
かなりの進展はあったけど、まだ課題が残ってるんだ。生成するやり取りをさらに改善できるし、もっと多様なデータでモデルを訓練する予定だよ。それに、グループの人々を含む複雑なシナリオでモデルがどう機能するか探求するのも楽しみなんだ。将来の実験では、テキストの説明や特定の行動みたいな異なるタイプの入力でモデルを調整して、より焦点を絞ったやり取りを生成することも考えられるよ。
結論
2Dの画像から3D空間での人間のやり取りを理解することは、社会的な行動を研究する新しい可能性を開くんだ。写真からの既存データを活用することで、人間のやり取りを正確に反映したモデルを作れるよ。このモデルは、人々の社会的な状況でのリアルな表現を生成するだけでなく、単一の画像からのやり取りの再構築にも役立つんだ。この発見は、人間の行動をより深く理解する道を開いて、リアルなキャラクターのやり取りに依存する産業に大きく貢献することができるよ。モデルをさらに洗練させていく中で、より広い応用や人間とコンピュータのインタラクションの分野での進展を楽しみにしてるんだ。
タイトル: Generative Proxemics: A Prior for 3D Social Interaction from Images
概要: Social interaction is a fundamental aspect of human behavior and communication. The way individuals position themselves in relation to others, also known as proxemics, conveys social cues and affects the dynamics of social interaction. Reconstructing such interaction from images presents challenges because of mutual occlusion and the limited availability of large training datasets. To address this, we present a novel approach that learns a prior over the 3D proxemics two people in close social interaction and demonstrate its use for single-view 3D reconstruction. We start by creating 3D training data of interacting people using image datasets with contact annotations. We then model the proxemics using a novel denoising diffusion model called BUDDI that learns the joint distribution over the poses of two people in close social interaction. Sampling from our generative proxemics model produces realistic 3D human interactions, which we validate through a perceptual study. We use BUDDI in reconstructing two people in close proximity from a single image without any contact annotation via an optimization approach that uses the diffusion model as a prior. Our approach recovers accurate and plausible 3D social interactions from noisy initial estimates, outperforming state-of-the-art methods. Our code, data, and model are availableat our project website at: muelea.github.io/buddi.
著者: Lea Müller, Vickie Ye, Georgios Pavlakos, Michael Black, Angjoo Kanazawa
最終更新: 2023-12-12 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2306.09337
ソースPDF: https://arxiv.org/pdf/2306.09337
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。