効率的なシーングラフ生成の進展
シーングラフ生成を改善して、より良い視覚理解を得るための新しいアプローチ。
― 1 分で読む
画像からシーングラフを作成するのは難しい作業だね。これって、シーンを理解することに頼るコンピュータビジョンのアプリケーションにとって重要なんだ。今のところ、ほとんどの方法は実用的な使い方に役立つグラフを生成することに焦点を当ててないんだよね。代わりに、詳細な関係を予測するためにデータを精練しようとすることが多い。でも、これらの詳細な関係がすべて重要というわけじゃないし、実世界のシナリオでは全く役に立たないものもある。
この研究では、関連性のある関係を作成することを強調した効率的なシーングラフ生成(SGG)の概念を紹介している。この方法は、画像生成のようなタスクでシーングラフの実用的な使用を助ける。これをサポートするために、VG150-curatedという新しいデータセットが提案されている。このデータセットは、Visual Genomeデータセットの注釈に基づいて構築されたけど、より良いバリエーションのある注釈を含むように改善されている。実験の結果、この新しいデータセットを使うことでシーングラフから画像を作成する際の結果が良くなった。
タスクの概要
シーングラフ生成は、オブジェクト間の関係を特定することでシーンの象徴的な表現を作ることを含んでいる。通常、現在のアプローチは、画像からオブジェクトの特徴を検出し、その後オブジェクトペア間の関係を決定する必要があり、これはトリプレットとして表現される。このトリプレット間の接続は、各頂点がオブジェクトとその対応する画像領域を表す有向非巡回グラフを形成する。この方法は、画像キャプショニングや視覚的な質問に答えるような他のタスクにも有望だ。
この分野ではいくつかの進展があったけど、既存の方法の性能はまだ不十分だし、他のタスクでの使用も限られている。進展が遅いのは、いくつかの問題に起因していて、一番の問題は関係のロングテール分布だ。データの注釈の仕方にバイアスがあるせいで、SGGで使われるデータセットはあいまいな関係(例えば、on, has, near)が多く、詳細なもの(例えば、riding, under, eating)が少ない。
いくつかの研究者はバイアスのないSGGアプローチを探ったけど、タスクの他の重要な側面は見落とされがちで、シーングラフが伝える有用な情報の量などが含まれる。最近のアイデアからインスパイアを受けて、この研究では、詳細な情報にだけ焦点を当てるのではなく、シーンから最大限の関連情報を抽出することを目指す効率的SGGを提案している。この新しい方向性は、主要な出来事を特定することが小さな詳細を予測することよりも重要な下流タスクにとって役立つ。
新しいデータセット
このタスクで効率的な学習を促進するために、Visual Genomeデータセットの既存のノイズの多い注釈を使って新しい高品質のデータセットが作成された。他のキュレーションされたバージョンとは異なり、このデータセットはシーングラフによって表現された意味を維持しながら、無関係な注釈を取り除くことで効率的SGGのための改善されたデータセットを作成している。
現在のSGGメソッドがVisual Genomeで訓練されていることが非効率的であることを示す証拠がある。彼らはしばしば過剰な自信を持って無関係な関係を予測し、注釈付きサンプルでの接続性が悪く、学習プロセスを妨げて低品質のグラフを生じさせている。この研究は、これらの課題に対処し、新しい高品質のデータセットを導入してベースラインモデルの性能を大幅に向上させる。
この研究の主な貢献は以下の通り:
- サンプルの接続性がSGGにおけるベースラインモデルの学習に与える影響の分析。
- 意味に基づく無関係な関係の新しい分類。
- 元のサンプルからこれらの無関係な関係を取り除くための新しいプロセス。
関連研究
SGGはコンピュータビジョンと自然言語処理分野の両方で注目を集めている。人気のある方法は、Faster-RCNNのようなオブジェクト検出モデルとグラフ生成を組み合わせた二段階アプローチを用いている。しかし、Visual Genomeのようなデータセットにおけるバイアスに関する懸念から、無バイアスSGGに焦点を当てた研究が進んでいる。
いくつかの新しい方法は、タスクに対して単一段階でアプローチし、画像特徴から直接関係を学習する。にもかかわらず、これらのモデルはしばしばすべての関係が学習プロセスで同じ重要性を持つと仮定し、無関係な関係を高い自信で予測することになる。この過剰な自信の行動は、関連する予測を必要とする下流タスクでの性能を妨げる。
既存のいくつかのアプローチは、データ中心の視点からVisual Genomeのバイアスを考慮した。いくつかは、空間的な特徴に基づいて一般的な関係を取り除くことで希薄な注釈を生じさせている。その間、他の方法は述語の分布を均衡させたりあいまいな述語をフィルタリングすることに焦点を当てているが、これらの方法は、自然言語のあいまいさのために常に当てはまるわけではない述語の一貫した使用に依存している。
この研究では、実用的な使用をサポートするために、視覚的に関連する注釈のみを含むデータセットを構築することに焦点を当てている。関連関係の定義が紹介され、外部知識を使って推測できる一般的な真実を記述する場合、その関係は無関係であると示されている。
問題定義
Visual Genomeデータセットは、SGGのための最大かつ最も頻繁に使用されるデータセットだ。注釈は領域キャプションの形で収集され、各領域のためのトリプレットを抽出するためにさまざまな技術が使われた。その結果、オブジェクトや述語のクラスが圧倒的に多くなり、その多くは単一のサンプルしか持っていない。
SGGのためのより効果的な学習を可能にするために、通常のアプローチは注釈を剪定し、最も頻繁なオブジェクトと述語のクラスの選択のみを保持することだ。しかし、現在の方法はどれもグラフ構造を保持したり、剪定中に関連するシーン情報を維持したりしていない。ここでの目標は、元の情報をできるだけ多く保持しながらオブジェクトと述語のクラスの注釈を抽出することだ。
この研究では、与えられた画像のすべての関係を表すグラフを記述するための表記法を使用する。エッジと頂点を含めることが重要で、すべての頂点が接続されているわけではなく、元の注釈から削除される場合もある。
元のVisual Genomeの注釈における平均的なグラフサイズは大きい。しかし、データセットがトップのオブジェクトと述語のクラスを選択するように剪定されると、多くの注釈が失われ、グラフの接続性が低下する。この剪定方法は、特にメッセージパッシングやマッチングのような方法を使って文脈をモデル化するSGGアプローチの性能に影響を与える。
無関係な関係
接続性の問題に加えて、Visual Genomeの注釈は過剰に表現されたトリプレットのためにバイアスがかかっている。特定の不変の関係、例えば部分-全体の関係は過剰に一般的で、これによりモデルは過剰な自信を持ってこれらの関係を予測する。これが、バイアスに依存したために性能を悪化させる。
Visual Genomeにおける関係の分類は、幾何学的、所有、意味の3つのカテゴリーがある。幾何学的関係は空間的な位置を、所有関係はエンティティとアイテムの関係を、意味関係は活動に関するものだ。最も一般的なトリプレットの分布を分析すると、部分-全体の関係が優勢で、一般的に真実であるため学習プロセスが歪む可能性がある。
次のセクションでは、接続性の問題と無関係な関係を新しいキュレーション方法で解決するアプローチについて詳述する。
データキュレーションプロセス
この研究は、Visual Genomeデータセットの前処理されたバージョンから始まる。オブジェクト領域については、重なりに基づいてバウンディングボックスをマージするアプローチが取られる。テキストの注釈については、ストップワードと句読点が取り除かれ、共通のデータベースを使用して同義語がマージされる。このプロセスにより、データセットのクリーンなバージョンが生成される。
接続性を高めるために、接続された領域の数を増やすためのシンプルなアルゴリズムが導入される。関係の関連性に対処するためには、無関係なものを分類・除去することが特に必要で、その中でも部分-全体の関係が重視される。
このデータセットから部分-全体の関係を除外することを目的として、トリプレットの注釈を言語ベースの知識源と比較して類似点を特定する。もしある関係がこの外部リソースからの部分-全体の接続と密接に一致するなら、元のデータセットから除去される。このアプローチにより、意味のある相互作用を保持するより洗練されたデータセットが得られる。
フィルタリング技術を適用した後、新しいデータセット分割が作成され、VG150-curatedとラベル付けされる。このキュレーションにより、以前のバージョンよりも少ないサンプルが得られるが、接続の平均数は高く維持される。これは、選ばれた関係が相互依存的であることを示しており、SGGモデルの学習プロセスに利益をもたらす。
最後に、この新しくキュレーションされたデータセットにおけるSGGモデルの性能が分析され、アプローチの効果を検証する。
実験設定と結果
提案された方法を評価するために、3つのタスク(述語分類、シーングラフ分類、シーングラフ生成)を計画している。述語分類は、オブジェクト領域のペアを与えられたときに関係を予測することに焦点を当てている。シーングラフ分類は似ているが、オブジェクトペアはモデルによって推測される必要がある。シーングラフ生成は前提知識がないことを想定し、オブジェクト領域、ペア、関係を予測することを含む。
広く使用されているベースラインモデルのセット(IMP、Motifs、VCTree)がデータセットで訓練される。これらのモデルは、VG150-connectedおよびVG150-curatedデータセットに基づいてタスクの性能を測るためにmeanRecall@Kメトリックを使用して評価される。
各モデルを再訓練する際には、公平な比較を許可するためにベースライン構成が維持されることが重要だ。特定のバッチサイズと学習率がハードウェアの能力に適したもので訓練が行われる。
定量結果
実験の結果、VG150-curatedを使用することで、さまざまなベースラインモデルに大きな利益がもたらされることが示された。モデルはデータセットの接続性が高い性質から最も恩恵を受けている。特にNeural MotifsやVCTreeのようなモデルの性能メトリックが改善されている。
VG150-curatedデータセットで訓練されたモデルの性能を分析すると、以前のデータセットバージョンと比較してすべてのタスクで顕著な進展が見られる。無関係な関係を排除するために行われた調整が、全体的な性能メトリックの向上につながっている。
モデルの性能が改善されるだけでなく、意味のある注釈を使用する重要性が強調される。意味のない関係を取り除くことで、ベースラインモデルはより重要な相互作用に集中でき、シーンの理解が強化される。
定性的結果
定量的な指標に加えて、異なるデータセットでモデルが行った予測の定性的な比較が違いを示している。元のバージョンで訓練されたモデルの予測は、オブジェクトの内部部分に焦点を当てて、シーン内の他の要素との重要な相互作用を見逃すことが多い。
一方、キュレーションされたデータセットで訓練されたモデルは、必要な相互作用を含む予測を提供し、シーンに関する情報がより豊かになる。
これは、元のデータセットのバイアスのある注釈に依存することの潜在的な欠点を示しており、より良い結果を達成するための改善されたデータセットの重要性を強調している。次のセクションでは、キュレーションされたデータセットの利点をさらに示すために画像生成タスクを検討する。
画像生成タスク
VG150-curatedデータセットの品質を評価するために、シーングラフからの画像生成タスクが行われる。画像生成は他のタスクとは異なり、バイアスを導入する可能性のある外部入力に依存せず、生のデータセット入力を直接使用する。
標準的な画像生成モデルが、元のデータセットとキュレーションされたデータセットの両方を使って再訓練される。その性能は、実際の画像とモデルが生成した画像との距離を測るメトリックを使用して評価される。
結果は、VG150-curatedデータセットを使用して生成された画像が、元のデータセットから生成されたものよりも実際の画像とより良く一致することを示している。これは、キュレーションされたデータセットがモデルのシーンのより正確な表現を生成するのをサポートしていることを示唆している。
結論
ここで示された研究は、Visual Genomeデータセットの重要なバイアスに対処し、データセットの質を改善するための新しい技術を提案している。シーングラフにおける関係の関連性を向上させることに焦点を当てることで、従来のベンチマークを上回る新しいデータセットが作成された。
研究結果は、無関係な関係に依存する既存の方法の限界を明らかにし、キュレーションされたデータセットの使用の利点を強調している。この研究は、シーングラフ生成の将来の改善への道を開き、コンピュータビジョンタスクにおけるより信頼性の高いデータセットのさらなる利用の基盤を提供する。
最終的に、提案された方法とデータセットは、継続的な研究努力を支援し、実世界のアプリケーションにおける視覚理解タスクの効果を向上させることを目指している。
タイトル: Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient Scene Graph Generation
概要: Learning to compose visual relationships from raw images in the form of scene graphs is a highly challenging task due to contextual dependencies, but it is essential in computer vision applications that depend on scene understanding. However, no current approaches in Scene Graph Generation (SGG) aim at providing useful graphs for downstream tasks. Instead, the main focus has primarily been on the task of unbiasing the data distribution for predicting more fine-grained relations. That being said, all fine-grained relations are not equally relevant and at least a part of them are of no use for real-world applications. In this work, we introduce the task of Efficient SGG that prioritizes the generation of relevant relations, facilitating the use of Scene Graphs in downstream tasks such as Image Generation. To support further approaches, we present a new dataset, VG150-curated, based on the annotations of the popular Visual Genome dataset. We show through a set of experiments that this dataset contains more high-quality and diverse annotations than the one usually use in SGG. Finally, we show the efficiency of this dataset in the task of Image Generation from Scene Graphs.
著者: Neau Maëlic, Paulo E. Santos, Anne-Gwenn Bosser, Cédric Buche
最終更新: 2023-09-25 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.18668
ソースPDF: https://arxiv.org/pdf/2305.18668
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。