弱い監視で人と物のインタラクション検出を進める
この方法は、よりシンプルなアノテーションとビジョン・ランゲージモデルを使ってHOI検出を強化するよ。
― 1 分で読む
目次
人間-物体相互作用(HOI)検出は、コンピュータビジョンのタスクで、画像の中で人と物体が相互作用しているペアを見つけることに焦点を当てているんだ。目的は、誰が何と相互作用しているのかを特定して、どう相互作用しているのかを説明すること。従来の方法は、詳細なラベリングがたくさん必要で、これが高くついたり、時間がかかったりするんだ。研究者たちは通常、強い監視に頼っていて、つまり、画像の中で人や物体がどこにいるのかに対して正確な注釈を必要とし、どんな相互作用が行われているかのメモも必要なのさ。
HOI検出の課題
この注釈を作成するのは大変なんだ。アノテーターは image 内容を完全に理解して、正しく相互作用をマークする必要があるから。だから、この分野は詳細なラベリングをあまり必要としない弱い監視の形を探るのが遅れているんだ。このための主な理由は、異なる物体やアクションの相互作用が複雑だからだよ。
この議論では、画像レベルでの相互作用をラベル付けする、つまり最も詳細が少ない監視を使ってHOI検出に取り組もうとしているんだ。例えば、人と物体の間の具体的なアクションをマークする代わりに、「乗っている」みたいなことをただメモするだけ。このようにするとデータ収集が楽になるし、アノテーターは「この画像で何が起こっているの?」っていう簡単な質問に答えるだけで済むんだ。
改善のためのビジョン-言語モデルの利用
この弱い監視の形を機能させるために、画像を説明するキャプションを使うことができるんだ。これらのキャプションは、可能な相互作用を表していない提案をフィルタリングするのに役立つよ。さらに、高度な言語モデルを使って、人と特定の物体の間でどのアクションが起こる可能性が高いかを判断することができる。例えば、「乗っている」っていうのが自転車に乗るのはありだけど、歯ブラシに乗るのはあり得ないかどうかをモデルでチェックするんだ。
また、オブジェクトが空間的にどう関係しているかを考えるのを助ける追加タスクも導入してる。このアプローチは、画像の中に多くの人-物体ペアが存在しても、相互作用を正確に識別する方法を学ぶのに役立つんだ。
画像レベルの相互作用ラベルの重要性
私たちのアプローチは、基本的なアイデアから始まる。画像レベルの相互作用ラベルを使って、広範なバウンディングボックス注釈なしでモデルを訓練すること。さらに、インターネット上のフリーフォームキャプションを活用する。このキャプションを画像と組み合わせることで、あり得ない人-物体ペアを取り除くのに使えるんだ。これは大きなステップで、広く利用可能なデータを使えるようにするから、費用がかかり、詳細にラベリングされたデータセットを必要としなくなる。
非相互作用を排除する
相互作用を検出するのは、関与する人や物体の明確な境界がないと難しいかもしれない。これを解決するために、ビジョン-言語モデルを使って、相互作用が発生しそうな画像の領域をハイライトするグラウンディングマップを作成できるんだ。画像の中の各人や物体の提案に対して、これらのマップに基づいてスコアを計算することで、相互作用の最も有望な候補に焦点を合わせることができるよ。
スコアを計算した後、残った人と物体の候補をペアにして分類することで、モデルが正確に学習しやすくなる。このプロセスは、不必要な複雑さを避けて、各画像の最も関連性のある部分にモデルの訓練を集中させるのに役立つんだ。
妥当な相互作用の確認
モデルが自然な相互作用だけを考慮するようにするために、大きな言語モデルにインサイトを問い合わせることができる。各物体カテゴリーについて、人がその物体で取る行動が合理的かどうかをチェックすることができる。どのアクションがあり得るのかを見つけることで、モデルの予測からあり得ない相互作用を除外するのに役立つシンプルなルックアップテーブルを作成する。
例えば、「乗っている」とされる人が、自転車に乗るのはリアルでも椅子には乗らないかどうかを確認したいよね。モデルが特定の相互作用が妥当だと予測した場合は、その相互作用のスコアを調整して反映させることができる。
空間推論能力の向上
相互作用に焦点を当てつつ、モデルに空間的な関係を考慮させる弱い監視タスクも導入する。このタスクを通じて、モデルが人間と物体が空間的にどう関係しているかを表す前置詞を予測することを学ぶのを助けるんだ。こういうタスクで訓練することで、相互作用のコンテキストを理解するのが得意になる。
例えば、モデルに「下」や「上」みたいな相手との位置関係を示すフレーズを認識させることで、画像の中での空間について推論する能力を広げることができ、相互作用の検出全体のパフォーマンスを向上させることができるよ。
データとメトリクス
私たちの実験では、HOI検出専用に設計された既存のベンチマークでアプローチをテストしている。これらのデータセットには、さまざまな画像と相互作用のための一部注釈が含まれている。訓練データのために、ノイズの多いキャプションを含む追加データセットもウェブから取得して、アプローチの柔軟性を示しているんだ。
ベースラインモデルと訓練手順
私たちの方法は、以前に成功した二段階HOI検出モデルに基づいている。よく知られたベースラインモデルを使って、そこに私たちの貢献を加える。重要なのは、私たちのアプローチが弱い監視に基づいているけれど、競争力のある結果を達成していること。私たちは訓練プロセスを設定して、完全に監視された方法と比べてモデルのパフォーマンスを評価する。
さまざまな実験を通じて、私たちの新しい方法を取り入れることで、モデルの人間-物体相互作用を検出する能力が大幅に向上することを確認している。弱い監視と完全な監視の方法に対してモデルを検証することで、改善がどこにあったかを見ることができるんだ。
他の方法との性能比較
私たちのモデルの能力を評価するために、他の最先端のHOI検出アプローチと比較している。ほとんどの既存の弱い監視モデルは、相互作用タイプと物体カテゴリーの両方をラベリングするようなより強い監視に依存していることを指摘するのは重要だよ。私たちのアプローチは、これを相互作用ラベルだけに簡略化していて、その結果、いくつかの既存の方法に比べて大きく上回ることが示されている。
また、私たちのモデルがHOI関連の詳細な注釈なしで画像-キャプションペアを使って良い結果を達成することを強調していて、効率性を示している。これらの結果は、私たちのアプローチがHOI検出タスクに固有の課題に効果的に対処し、弱い監視学習の分野における有望な方向性を提供していることを示している。
結論
この議論では、最も弱い監視の形に依存しながらも、しっかりとした結果を達成するHOI検出の方法を提示したよ。画像レベルの相互作用ラベルを利用し、ビジョン-言語モデルを活用することで、相互作用のプールを最も関連のあるものに絞り込むことができた。また、妥当な相互作用のために言語モデルに問い合わせたり、空間推論タスクで訓練したりすることで、モデルの画像内のダイナミクスを理解する能力を向上させた。
その結果、私たちが提案する方法は注釈プロセスを簡素化するだけでなく、弱い監視学習の分野でさらなる研究の扉を開くことにもつながる。私たちの発見は、強い監視がなくても、人間-物体相互作用検出のような複雑なタスクのために効果的なモデルを訓練することが可能だということを示唆しているんだ。
タイトル: Weakly-Supervised HOI Detection from Interaction Labels Only and Language/Vision-Language Priors
概要: Human-object interaction (HOI) detection aims to extract interacting human-object pairs and their interaction categories from a given natural image. Even though the labeling effort required for building HOI detection datasets is inherently more extensive than for many other computer vision tasks, weakly-supervised directions in this area have not been sufficiently explored due to the difficulty of learning human-object interactions with weak supervision, rooted in the combinatorial nature of interactions over the object and predicate space. In this paper, we tackle HOI detection with the weakest supervision setting in the literature, using only image-level interaction labels, with the help of a pretrained vision-language model (VLM) and a large language model (LLM). We first propose an approach to prune non-interacting human and object proposals to increase the quality of positive pairs within the bag, exploiting the grounding capability of the vision-language model. Second, we use a large language model to query which interactions are possible between a human and a given object category, in order to force the model not to put emphasis on unlikely interactions. Lastly, we use an auxiliary weakly-supervised preposition prediction task to make our model explicitly reason about space. Extensive experiments and ablations show that all of our contributions increase HOI detection performance.
著者: Mesut Erhan Unal, Adriana Kovashka
最終更新: 2023-03-09 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.05546
ソースPDF: https://arxiv.org/pdf/2303.05546
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。