Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識# 人工知能

ユーザーの好みによる画像生成の進化

新しいデータセットがユーザーの画像の好みをよりよく理解する手助けをする。

― 1 分で読む


ユーザー主導の画像生成ユーザー主導の画像生成画像の好みの理解を革新する。
目次

テキストの説明に基づいて画像を作るのが人気になってきてるね。でも、生成された画像を見たときに人々が何を好むかの情報を集めるのは大変なんだ。そういう情報はよく企業が持ってて、一般には公開されないから。そこで、ユーザーが自分のテキストプロンプトから画像を作って好みを共有できるウェブアプリを作ったんだ。

Pick-a-Picデータセット

このウェブアプリを使って、Pick-a-Picっていうコレクションを作ったよ。このコレクションには、ユーザーが生成画像で何を好むのかを示すたくさんの例が含まれてる。データセットには50万以上のテキストプロンプトとユーザーの好みの例があるんだ。ユーザーは自分のプロンプトを書いて、生成された2つの画像を見て、どっちが好きか選べる。決められなかったら、同点も表示できる。このプロセスは、プロンプトを変えるまで続くよ。

このデータセットは、実際に画像生成に興味があるユーザーによって作られたからユニークなんだ。有料の作業者を使って質に無関心な人とは違うからね。ユーザーが本気で参加してるから、その好みはより本物なんだ。

スコアリング関数のトレーニング

生成された画像を良くするために、このデータセットを元に特別なスコアリング関数を開発したよ。この関数は、生成された画像がユーザーの好みにどれだけ合っているかを評価するのに役立つんだ。すでに画像とテキストを理解しているモデルを微調整して、このスコアリング関数を訓練した。ユーザーのプロンプトに基づいて、どの画像が好まれるかをより良く予測できるようにするのが目標だった。

結果は、僕たちのスコアリング関数が他のスコアリング方法よりもユーザーの好みを高精度で予測できることを示していたよ。つまり、僕たちのツールは、ユーザーが画像を生成する時に何を求めているのかを理解するのに効果的なんだ。

評価基準の改善

今のところ、多くの研究者は生成画像を評価するために標準的な方法に頼ってる。最も一般的に使われてるデータセットはMS-COCOで、写真家が撮った画像を説明するキャプションが含まれている。でも、これらのキャプションは、ユーザーが生成したいと思っているクリエイティブなプロンプトを反映してないかもしれない。

僕たちは、Pick-a-Picデータセットを使うのがテキストから画像モデルを評価するより良い方法だと思ってる。Pick-a-Picのプロンプトは、実際のユーザーの興味を反映してるのに対して、MS-COCOは日常的な物やシーンに焦点を当ててるからね。異なるモデルがどれだけパフォーマンスが良いかを比較した結果、Pick-a-Picを使った方が人間のユーザーが好むものに近い結果が出たんだ。

既存のメトリックとの比較

多くの研究者は、画像生成を評価するためにフレシェ距離(FID)という測定を使ってる。この測定は、生成された画像が実際の画像とどれだけ似ているかを確認するけど、使われたプロンプトは考慮しないんだ。僕たちのテストでは、スコアリング関数がユーザーの好みにずっと合ってることがわかったよ。

僕たちのスコアリング関数とFIDの両方を使っていろんなモデルをテストしたとき、僕たちの方法が実際のユーザーが好きなものとのつながりが強いことが分かった。これは、関連性のある評価のためにPick-a-Picプロンプトとスコアリング方法を使うべきだって示唆してるね。

アプリとのユーザーインタラクション

このウェブアプリは簡単に使えて、みんなのためにデザインされてるよ。ユーザーはクリエイティブなプロンプトを入力して、それに基づいて生成された2つの画像を見ることができる。そしたら、どちらの画像が好きか選ぶか、同点を表示すればいいんだ。

選んだ後は、好まれなかった方の画像が新しい画像に置き換わる。このプロセスは簡単で、ユーザーが自分の入力を洗練させることができるんだ。アプリは、ユーザーがいつでもプロンプトを変更したりクリアしたりできるから、柔軟で使いやすいよ。

実際のユーザーから好みを集める

僕たちのデータセットの大きな利点のひとつは、集めたデータの信頼性なんだ。SNSを通じて潜在的なユーザーに連絡して、多様な実際のユーザーの好みを集めてるよ。集めた好みの質を確保するために、数種類の検証とモニタリングの方法を用意してるんだ。

ユーザーはアプリとやり取りする前にアカウントを認証する必要があるよ。また、彼らのアクティビティを追跡して、不適切な使用がないか監視してる。もしユーザーが有害なコンテンツを生成したり、怪しい行動をとったりしてるのを見つけたら、対処できるようになってる。

データの質を確保する

ユーザーの好みを集める過程で、データ収集の方法をいろいろ試したんだ。ユーザーに2つの画像を比較して好みを示してもらう(同点も含む)ことで、エンゲージメントが高まり、より良いデータを得られることが分かったよ。

フィルタリングに関しては、不適切なコンテンツを含むプロンプトや画像を削除してる。データセットをきれいにすることで、有害な例や質の低い例の存在を制限することを目指してるんだ。

データセットはトレーニング、検証、テストの3つの部分に分けた。このプロセスによって、トレーニングしたモデルがプロンプトで重複しないようにして、公平な評価を実現してるよ。

モデルの選定と評価の洞察

Pick-a-Picデータセットを使うことで、異なる画像生成モデルがユーザーの好みに基づいてどれだけパフォーマンスを発揮するかを分析できるんだ。たとえば、モデルの特定の設定が生成された画像にどのように影響するかを調べたよ。

具体的には、Stable Diffusionモデルの特定のパラメータを変更して、ユーザーが好む画像の選択にどれだけ影響を与えるかを調べたんだ。これらの画像を比較したユーザーから好みを集めることで、どの設定がより好ましい結果をもたらすかを判断できる。

実験から、Dreamlike Photorealのようなモデルが他のモデルより好まれることが分かって、生成された画像に基づいて明確なユーザーの好みが見えたよ。

質の高いスコアリング関数のトレーニング

ユーザーのプロンプトに基づいて生成された画像の質を評価するために、スコアリング関数を訓練したよ。このスコアリング関数は、既存のモデルの能力と僕たちのユニークなデータセットを組み合わせて、ユーザーの好みを正確に予測できるようにしてるんだ。

このプロセスを通じて、他のモデルと比較して、ユーザーの選択を予測するのが格段に上手いことが分かった。これは、実際のユーザーデータを使って予測モデルを訓練することの強さを示してるね。

テストセットでのパフォーマンス

スコアリング関数をテストする中で、ユーザーの好みを予測する能力を他の既存の方法と比較したよ。いくつかの同点許容範囲を使用して、スコアリング関数の予測を微調整しようとしたんだ。結果は一貫して、スコアリング関数が他のものよりもパフォーマンスが良いことを示してた。

特に、僕たちのツールは専門の人間のアノテーターを上回るパフォーマンスを示して、ユーザーの好みを特定するのに効果的だってことがわかったよ。既存の方法のパフォーマンスは、しばしばランダムな確率に近く、現在使われているツールには改善の余地があることを示してる。

今後の研究への提案

Pick-a-Picデータセットとスコアリング関数の利点を考えると、研究者にとって今後のプロジェクトに僕たちのリソースを考慮するようお勧めするよ。Pick-a-Picのプロンプトを使うことで、ユーザーのテキストから画像生成への本当の魅力をよりよく理解できるはずだから。

テキストから画像技術に取り組んでいるチームには、これらのユーザーベースのメトリックをワークフローに組み込む方法を考えるべきだと提案するよ。これによって、生成された画像がユーザーの期待とより一致するようになるはずだよ。

結論

Pick-a-Picデータセットを作成し、スコアリング関数を訓練することで、テキストから画像生成の分野に大きな貢献をしたと思ってる。実際のユーザーの好みに焦点を当てることで、画像生成モデルの評価により関連性のある基準を開発したんだ。

利用可能なツールやデータセットを使って、今後の研究の機会はたくさんあるよ。僕たちの仕事を基に、他の人たちがどのように技術を進めていくのか、楽しみにしてるんだ。

オリジナルソース

タイトル: Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image Generation

概要: The ability to collect a large dataset of human preferences from text-to-image users is usually limited to companies, making such datasets inaccessible to the public. To address this issue, we create a web app that enables text-to-image users to generate images and specify their preferences. Using this web app we build Pick-a-Pic, a large, open dataset of text-to-image prompts and real users' preferences over generated images. We leverage this dataset to train a CLIP-based scoring function, PickScore, which exhibits superhuman performance on the task of predicting human preferences. Then, we test PickScore's ability to perform model evaluation and observe that it correlates better with human rankings than other automatic evaluation metrics. Therefore, we recommend using PickScore for evaluating future text-to-image generation models, and using Pick-a-Pic prompts as a more relevant dataset than MS-COCO. Finally, we demonstrate how PickScore can enhance existing text-to-image models via ranking.

著者: Yuval Kirstain, Adam Polyak, Uriel Singer, Shahbuland Matiana, Joe Penna, Omer Levy

最終更新: 2023-11-23 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2305.01569

ソースPDF: https://arxiv.org/pdf/2305.01569

ライセンス: https://creativecommons.org/publicdomain/zero/1.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事