トレーニングされたエージェントを使ってモデルのデータ収集を改善する
新しい方法は、データ収集に訓練されたエージェントを使ってモデルのパフォーマンスを向上させる。
― 1 分で読む
最近、環境をシミュレートするモデルは、複雑な状況でルールやアクションがどう機能するかを理解するために欠かせないものになってるよ。そんなモデルの一つ、Genieは、いろんなビジュアルシナリオから学ぶのが得意なんだけど、人間が集めたデータに大きく依存してて、それが高くついたり時間がかかったりするんだ。この記事では、トレーニングされたエージェントを使ってデータを集める新しいアプローチについて話すよ。これによって、モデルのいろんな状況でのパフォーマンスが向上するんだ。
既存モデルの限界
Genieは複数の環境から学べるように設計されてて、新しい挑戦に適応するモデルを作るのには重要なんだ。プラットフォーマーゲームのアクションをシミュレートできるから、学んだスキルを知らない画像に移転することが可能なんだけど、大規模なデータセットを作るのに人間のデモに頼ってるから、ビデオゲームのプレイ動画を集めたり整理したりするのにコストがかかるんだ。それに、無作為なエージェントを使ってデータ収集を試みた際、環境を十分に探索できないことが分かって、オーバーフィッティングに繋がっちゃうんだ。オーバーフィッティングは、モデルがトレーニングデータではうまくいくけど、新しい未知のデータでは苦労する現象なんだよ。
この限界に対処するために、強化学習を使うトレーニングされたエージェントを使って、多様なデータを集め、モデルのパフォーマンスを向上させることを提案するよ。これなら人間データ収集よりも安くて、より効果的なトレーニングができるんだ。
新モデルの実装
私たちの目標は、Genieのフレームワークを基にしたモデルを作ることだけど、トレーニングされたエージェントが生成したデータを使うことなんだ。それをするために、まず「GenieRedux」と呼ぶGenieのバージョンを開発したんだ。モデルをさらに強化するために、トレーニングされたエージェントのアクションを利用するバリアントを作ったよ。これによってテスト中の評価が向上するんだ。
私たちが使ったアーキテクチャはGenieに似てるんだ。モデルをいくつかのコンポーネントに分けて、効率的かつ効果的にしたよ。最初のコンポーネントはビデオトークナイザーで、入力フレームをモデルが処理できる形式に変換するんだ。次のコンポーネント、ラテントアクションモデルは、入力フレームに基づいてアクションを予測するのを手助けするんだ。最後に、ダイナミクスモデルが前のコンポーネントからの情報と行われたアクションに基づいて次のフレームを予測するんだ。
多様なデータの収集
私たちの実験では、Coinrunというプラットフォームを使ってモデルのパフォーマンスを評価したよ。Coinrunにはエージェントが実行できる七つのアクションがあるんだ。最初はランダムなエージェントでテストしたんだけど、その結果は多様性に欠けるデータセットになっちゃった。このエージェントは環境の限られたエリアしか探索できなくて、レベルのスタート地点を越えて進むことがほとんどなかったんだ。
次に、近接ポリシー最適化という方法を使って別のエージェントをトレーニングしたんだ。このトレーニングされたエージェントは、ランダムエージェントよりも遥かに豊かで多様なデータを集めてくれたから、より効果的なモデルを作ることができたよ。この新しいデータを1万エピソード以上にわたって集めて、トレーニングに利用できる情報のバラエティと内容が大幅に増えたんだ。
トレーニングプロセス
私たちのモデルのトレーニングには、64x64ピクセルの解像度でパッチサイズ4を使ったよ。最初はトークナイザーとラテントアクションモデルを別々にトレーニングして、その後フレームトークンと予測されたアクションを使ってダイナミクスモデルをトレーニングしたんだ。ランダムエージェントから得たデータを使ってベースラインモデルを確立した後、トレーニングされたエージェントから集めた豊かなデータセットを使って全てを微調整したよ。
私たちのトレーニングプロセスは数日間続いて、効率を確保するために強力なグラフィックプロセッシングユニット(GPU)を使用したんだ。パフォーマンスを向上させるために、アダムオプティマイザーや構造化トレーニングスケジュールの技術を使ったよ。
パフォーマンス評価
私たちのモデルは、視覚の質や環境内でのアクション制御のうまさに注目して、いろんな指標を使って評価したんだ。結果は、トレーニングされたエージェントからのデータを使った私たちのモデルが、ランダムエージェントからのデータに依存するモデルよりも大幅にパフォーマンスが良かったことを示しているよ。
具体的には、私たちのモデルの視覚的忠実度をピーク信号対雑音比(PSNR)という指標を使って測定したんだ。私たちのモデルは素晴らしいスコアを達成して、アクションに応じて高品質のフレームを生成できることを示しているよ。ラテントアクションモデルがアクションを正確にキャッチするのにいくつかの問題があったけど、視覚的に正確なシーケンスを生成する際の全体的なパフォーマンスは重要だったんだ。
従来モデルとの比較
このモデルの利点をより理解するために、Jafarという別の現代モデルと比較したんだ。JafarはGenieのバリエーションを実装してるんだ。私たちの調査で、Jafarはアクション表現のある側面で苦労しているのに対して、私たちのモデルはアーティファクトなしで視覚的質が良いことが分かったよ。
課題と限界
成功があったけど、私たちのアプローチにもいくつかの限界があることが分かったんだ。特に大きな環境の変化があるときには、問題が生じることがあったよ。例えば、キャラクターが高さから落ちたとき、モデルはその時点で限られた情報しか持ってなかったから、正確に予測するのが難しいことがあったんだ。それに、ジャンプのような動作が進行中のとき、モデルは動きの方向を決定するのに苦労して、生成されたフレームに不確実性やアーティファクトが生じちゃったんだ。
結論
この研究では、高価な人間のデモに頼るのではなく、トレーニングされたエージェントを使ってワールドモデルのデータを生成する可能性を探ったんだ。このシフトによって、さまざまな複雑な環境に適応できるモデルの構築が、よりスケーラブルで効率的なアプローチになるんだ。私たちの新しいモデルは視覚的質を向上させるだけでなく、アクションの制御も良くなったよ。これらの技術をさらに洗練させていく中で、アクセス可能で効果的な方法で生成モデルの能力を向上させていけることを期待してるんだ。
ここで述べた進歩は始まりに過ぎなくて、研究者やエンジニアが将来的に強化学習と生成モデルの組み合わせの可能性を探求する中で、さらなる改善が期待できるんだ。
タイトル: Learning Generative Interactive Environments By Trained Agent Exploration
概要: World models are increasingly pivotal in interpreting and simulating the rules and actions of complex environments. Genie, a recent model, excels at learning from visually diverse environments but relies on costly human-collected data. We observe that their alternative method of using random agents is too limited to explore the environment. We propose to improve the model by employing reinforcement learning based agents for data generation. This approach produces diverse datasets that enhance the model's ability to adapt and perform well across various scenarios and realistic actions within the environment. In this paper, we first release the model GenieRedux - an implementation based on Genie. Additionally, we introduce GenieRedux-G, a variant that uses the agent's readily available actions to factor out action prediction uncertainty during validation. Our evaluation, including a replication of the Coinrun case study, shows that GenieRedux-G achieves superior visual fidelity and controllability using the trained agent exploration. The proposed approach is reproducable, scalable and adaptable to new types of environments. Our codebase is available at https://github.com/insait-institute/GenieRedux .
著者: Naser Kazemi, Nedko Savov, Danda Paudel, Luc Van Gool
最終更新: 2024-10-18 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2409.06445
ソースPDF: https://arxiv.org/pdf/2409.06445
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/insait-institute/GenieRedux
- https://d3s3workshop.github.io/
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs
- https://tex.stackexchange.com/questions/503/why-is-preferable-to
- https://tex.stackexchange.com/questions/40492/what-are-the-differences-between-align-equation-and-displaymath
- https://mirrors.ctan.org/macros/latex/required/graphics/grfguide.pdf
- https://neurips.cc/Conferences/2024/PaperInformation/FundingDisclosure
- https://drive.google.com/file/d/1NEh59y32MXpArIGkMH0_klULtf5ZjvGH/view?usp=sharing
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines