Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識# 人工知能# 計算と言語# 機械学習

instructional video タスク学習の進展

新しいモデルが指導動画のタスク学習とミス検出を改善したよ。

― 1 分で読む


ビデオタスク学習の改善ビデオタスク学習の改善させた。新しいモデルが指導動画タスクの精度を向上
目次

ネット上にはたくさんの instructional 動画があるから、機械に動画からマルチステップタスクを学ばせるのは便利な目標なんだ。そこで、VideoTaskformerという新しい動画モデルを提案するよ。このモデルは、動画の意味や構造を理解することに焦点を当ててる。隠されている(マスクされた)ステップのラベルを予測するようにトレーニングされるんだ。今までの方法がステップを一つずつ見ていたのに対して、私たちのアプローチは全体の動画を考慮して、特定のステップの周りの全てのステップを使ってその意味を学ぶんだ。

モデルが学んだことを使って、動画がタスクを正しく実行しているかどうか確認したり、特定のステップの後に誰かがどのようなステップを取るかを予測できる。さらに、インストラクション動画の間違いを見つけるために新しいテスト方法を2つ作った。例えば、ステップが間違っているか、ステップが正しい順番で行われているかをチェックする。もう一つのベンチマークは、特定のステップから未来のステップを予測するものだ。私たちの方法はこれらのタスクで以前のモデルよりも成績が良くて、これらのベンチマークが動画からのタスク学習の質を測るのに役立つと信じてる。

以前の方法は、動画クリップを個別に見ていたからタスクのステップ間のつながりを見逃してた。VideoTaskformerは、動画内のステップを周囲の全てのステップを考慮しながら学ぶから、タスクの詳細や順序を意識しているんだ。

本棚を作っていると想像してみて。詳細なステップがたくさんある動画を見ながら作っていると、正しくステップを終えたか分からない時に何度も動画を一時停止するのがうっとうしいよね。そんな時、インタラクティブアシスタントがガイドしてくれたら、各ステップを正しく実行できて、間違えたら教えてくれるから助かるよね。

本棚を作るには、穴を開けたり支持ブロックを追加したりといったいくつかの小さなタスクがある。それを正しく分類するには、単に個々のステップを認識するだけでなく、それらが大きなタスク構造にどのように組み合わさるかを理解しないといけない。ステップの順序を知っていて、ステップを実行する方法がいくつかあることに気づくのも大事だ(例えば、卵をフォークや泡立て器で混ぜることができる)。

理想的なインタラクティブアシスタントは、たくさんのタスクをよく理解していて、各タスクに必要な具体的なステップを理解し、それらの順序や完了方法の違いを把握している。

以前のアプローチはしばしば個々のステップに焦点を合わせて、全体のタスクの流れを考慮しなかったから、ステップ同士のつながりを見逃してたかもしれない。タスクのステップはしばしばリンクしているし、ステップが全体のタスク内でどこに位置するかを理解することが重要な情報を提供するんだ。

これを解決するために、VideoTaskformerをトレーニングする際に動画全体の映像に基づいてステップの意味を学ぶよう促す手法を使った。以前は動画の間違いを見つけるためのしっかりしたベンチマークがなかったから、インストラクション動画が正確かどうか確認するのが重要だった。動画内で示されるタスクが正しく完了されているかを確認するための間違い検出タスクとデータセットを作成した。この中には各ステップが正しく、かつ適切な順序で行われているかのチェックも含まれている。

私たちの目標は、動画に示されたタスクの文脈に基づいてステップの意味を学ぶことだ。それを実現するために、マスクされたステップを用いたトレーニングアプローチを使ってVideoTaskformerを開発した。モデルをトレーニングするために、一部のステップを省略した動画を入力し、残された可視ステップだけに基づいて欠落しているステップを予測させるんだ。

このトレーニングから、ステップ予測(未来のステップを予測する)、ステップ分類(ステップを特定する)、手続き活動認識(実行されているタスクを理解する)などのタスクで性能を向上させる表現を学ぶことができる。

このモデルは間違いを特定するのにも役立つ。私たちの元々の目標は、インストラクション動画をフォローするユーザーにとって便利なツールを作ることだった。モデルの効果を評価するため、既存のアノテーションを使って間違いデータセットを生成した。

私たちは2種類の間違いに焦点を当てた:動画に示されたステップの誤りと、これらのステップが提示される順序の誤り。最初の種類では、動画のステップを似たタスクのステップと置き換えた。2番目の種類では、ステップの順序をシャッフルして、モデルがその順序が間違っていることを検出できるか見た。結果は、新しいモデルが両方の間違いを見つけることができ、古い方法よりも良い成績を出したことを示した。

また、既存のベンチマークでVideoTaskformerをテストした。ステップ分類、手続き活動認識、ステップ予測などが含まれる。結果は、私たちの方法が全てのベンチマークで以前のアプローチよりも優れていることを確認した。

以前の方法はしばしば個々のステップの学習に焦点を合わせていたが、全体のタスクフローを考慮しなかったから、ステップ同士の相互作用に関する重要な詳細を見逃していた。しかし、VideoTaskformerは動画全体の文脈を通じてステップの意味を学ぶんだ。

マスクされたモデルによるステップ表現の学習

目的は、インストラクション動画に示されたステップの意味ある表現を学ぶことだ。これを達成するために、特定のステップをマスクして学ぶようにトレーニングされたVideoTaskformerという動画モデルを開発した。

トレーニングプロセスは大きく2つの部分からなる:まず、弱くラベル付けされたデータセットを使ってモデルを事前トレーニングし、その後、特定のタスクのためにラベル付きデータで微調整する。

事前トレーニングフェーズでは、VideoTaskformerは動画を見て、可視のステップに基づいて欠落したステップについて予測を行う方法を学ぶ。微調整フェーズでは、特定のタスクのためにラベル付きデータを使って事前トレーニングしたモデルを調整する。それぞれのタスクには専用の微調整されたモデルがある。

事前トレーニングのステップを要約すると、インストラクション動画は個々のステップを表すクリップに分けられる。ステップはタスクの特定の部分を示す動画のフレームの系列だ。例えば、「フレンチトーストを作る」では、「生地を泡立てる」や「パンを生地に浸す」といったステップが含まれる。

私たちのモデルは、一部のクリップをランダムにマスクして、残された可視クリップに基づいて欠落したステップラベルを予測するようトレーニングされるマスクされたバージョンの動画から学ぶ。目標は、ステップの意味や順序をキャッチしたステップ表現を生成することだ。

さて、トレーニングに使った2つの目標を見てみよう:ステップ分類と分布マッチング。最初の目標は、欠落したクリップのための最良のステップラベルを予測することだ。2番目の目標は、弱い監視データに基づいて、モデルの予測を可能なステップラベルの実際の分布に一致させることに焦点を当てている。

モデルのパフォーマンスをいくつかのダウンストリームタスクで測定して、新しく作成したベンチマークも含めて、ステップ表現の学習へのアプローチを検証する。

VideoTaskformerの新しいベンチマークでのテスト

VideoTaskformerがタスクの構造や意味を効果的にキャッチできているか確認するために、6つの異なるタスクでテストした。新しく作った3つの間違い検出のためのベンチマークと、ステップ分類、手続き活動認識、予測のための3つの確立したベンチマークが含まれる。

**間違い検出:**これは、モデルが提供されたステップのエラーをどれだけ正確に特定できるかを評価する。2つのタスクを作った:一つは動画内のどのステップが間違っているかを見つける、もう一つはステップが正しい順番であるかをチェックする。

**間違いステップ検出:**このタスクでは、いくつかのステップがある動画を使い、他の動画からのステップの一つを真のステップの一つと置き換える。モデルの仕事は、どのステップが置き換えられたかを予測することだ。

**間違い順序検出:**このタスクでは、動画内のステップが正しい順序であるかどうかを確認する。動画の半分は順序通りに提示され、残りはシャッフルされている。モデルはその順序が正しいか混ざっているかを特定しなければならない。

**ステップ予測:**この側面は未来のステップ予測に焦点を当てている。短期予測タスクは、前のステップに基づいて次のステップを予測することを含み、長期ステップ予測タスクは、現在のステップに基づいて何ステップか先を予測するという挑戦だ。

**手続き活動認識:**このタスクは、動画内の全ての可視ステップに基づいて実行されている全体活動にラベルを付ける。

**ステップ分類:**モデルは、周囲のクリップの文脈なしに単一クリップからステップラベルを予測する。これによりモデルは個々のステップを正確に特定する能力が試される。

全てのタスクにおいて、モデルをトレーニングするためにラベル付きデータを使用し、VideoTaskformerのパフォーマンスを一貫して測定した。

トレーニングに使用したデータ

VideoTaskformerモデルのトレーニングに必要なステップラベルを集めるのは難しい。多くの動画には整理されたアノテーションが欠けているからだ。これを克服するために、動画のスピーチの書き起こしを使って弱い監視を得て、既存の詳細な指示があるデータセットに見つけたステップにマッピングした。

WikiHowデータセットは、様々なタスクのための明確なステップバイステップの指示を持つ幅広い記事を提供している。私たちはこれらのアーティクルをモデルのトレーニングプロセスでのガイドに使用した。動画のスクリプトは、発話された文を正しいステップに合わせるのを助ける。各動画セグメントは文にリンクされていて、適切なアクションを決定するのに役立つ。

スクリプトとWikiHowの記事内のステップを比較することによって、発話された文をタスクのステップにマッチさせるシステムを作成した。この弱い監視によって、アノテーションされた動画データの入手可能性が限られている中でも効果的なトレーニングが可能になる。

微調整とパフォーマンス評価

基本モデルをトレーニングした後は、様々なタスクのために微調整を行う。間違いステップ検出、間違い順序検出、長期および短期ステップ予測、手続き活動認識などのタスクには、動画セグメントを入力として使用する。

ステップ分類タスクの微調整プロセスでは、他のモデル層を固定しつつ線形出力層を変更して、特定のステップの認識能力を改善する。モデルは一貫した学習率で微調整され、数回のエポックでトレーニングされる。

全てのタスクにわたるモデルのパフォーマンスを測定することは、個々のステップと周囲タスクとの関係を理解する能力がどれだけ良く学習できたかについての洞察を提供する。私たちは様々なモデルの精度を報告し、以前の方法と比較して私たちのアプローチがどれだけ改善されたかを示す。

結果と他のモデルとの比較

VideoTaskformerの結果を、全てのタスクでいくつかのベースラインモデルと比較した。ステップ分類タスクでは、私たちのモデルが既存の最先端アプローチよりわずかに改善した。

手続き活動認識では、私たちの方法は古いモデルより少し優れていた。短期予測タスクでは、相当な改善が見られ、私たちのモデルのタスク構造の文脈的理解がより良い予測につながることを示している。

長期予測タスクでは、より難しいにもかかわらず、私たちのモデルは古い方法と比べて大きな得点を示し、パターンを効果的に学んで未来のステップを正確に予測できることを確認した。間違い検出タスクの評価も特に強力で、間違いステップ検出と順序検出の両方で精度が向上した。

これらの結果は、VideoTaskformerが個々のタスクだけでなく、全体のタスク構造を理解し、学習した表現に基づいて未来のアクションを予測する能力も持っていることを示している。

VideoTaskformerの質的評価

モデルの能力をさらに示すために、VideoTaskformerの特定の予測をベースラインモデルと比較する質的評価を行った。これらの比較は、モデルの文脈的理解が正確な予測につながることを明らかにする。

例えば、間違いステップ検出では、私たちのモデルが様々な動画例でどのステップが間違っているかを的確に特定できたのに対し、ベースラインモデルはエラーを正確に特定するのに苦労していた。間違ったステップを認識できる能力は、タスク構造を深く理解していることを示している。

間違い順序検出では、VideoTaskformerがステップの順序が間違っている時を正しく特定したが、他のモデルは順序を間違えて評価していた。これは、タスクを正しく完了するために必要なアクションのシーケンスを意識しているモデルの能力を強調する。

未来のステップを予測する際、私たちのモデルは常に次の論理的なステップを予測していたが、他のアプローチはしばしば根拠のない推測をしたり、重要なアクションを見逃したりすることが多かった。比較によって、VideoTaskformerが複数の次元で既存の方法よりも優れていることが示された。

結論

この研究では、VideoTaskformerという動画モデルを紹介した。これはマスクされたモデルアプローチを使い、インストラクション動画内のステップを理解し表現することを学ぶんだ。この手法では、全体のタスク構造を意識しつつ、文脈的なステップ表現を学ぶことができる。

モデルがどれだけ効果的に間違いを特定し未来のステップを予測できるかを評価するために3つの新しいベンチマークを設定し、いくつかのタスクで以前の方法を大幅に上回ることを示した。

詳細なテストと質的評価を通じて、VideoTaskformerがインストラクション動画から学ぶことができ、ユーザーがタスクをより効果的に実行する手助けができることを検証した。このモデルの潜在的な応用は広範囲にわたっており、インストラクショナルコンテンツを観察するだけで様々な複雑なタスクを学ぶ機会を提供してくれる。

謝辞

実験や執筆プロセスを支援してくれた様々な貢献者のサポートに感謝します。この研究は、様々なプログラムが資金とリソースを提供して支えられました。

補足資料

このセクションでは、モデルの実装、質的比較、および全ての6つのタスクに関するさらなる結果に関する追加の詳細を含めます。モデルがどのように微調整され、様々な課題に対する性能が評価されるために使用された特定のデータセットについての洞察を提供し、私たちのアプローチの徹底性やVideoTaskformerの能力の強靭さを強調しています。

オリジナルソース

タイトル: Learning and Verification of Task Structure in Instructional Videos

概要: Given the enormous number of instructional videos available online, learning a diverse array of multi-step task models from videos is an appealing goal. We introduce a new pre-trained video model, VideoTaskformer, focused on representing the semantics and structure of instructional videos. We pre-train VideoTaskformer using a simple and effective objective: predicting weakly supervised textual labels for steps that are randomly masked out from an instructional video (masked step modeling). Compared to prior work which learns step representations locally, our approach involves learning them globally, leveraging video of the entire surrounding task as context. From these learned representations, we can verify if an unseen video correctly executes a given task, as well as forecast which steps are likely to be taken after a given step. We introduce two new benchmarks for detecting mistakes in instructional videos, to verify if there is an anomalous step and if steps are executed in the right order. We also introduce a long-term forecasting benchmark, where the goal is to predict long-range future steps from a given step. Our method outperforms previous baselines on these tasks, and we believe the tasks will be a valuable way for the community to measure the quality of step representations. Additionally, we evaluate VideoTaskformer on 3 existing benchmarks -- procedural activity recognition, step classification, and step forecasting -- and demonstrate on each that our method outperforms existing baselines and achieves new state-of-the-art performance.

著者: Medhini Narasimhan, Licheng Yu, Sean Bell, Ning Zhang, Trevor Darrell

最終更新: 2023-03-23 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2303.13519

ソースPDF: https://arxiv.org/pdf/2303.13519

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事