Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識

アート分類におけるビジョン・ランゲージモデルの評価

研究は、VLMがアートスタイルや属性をどう分類するかを調査している。

― 1 分で読む


AIモデルによるアートの分AIモデルによるアートの分LMの評価。アートの属性やスタイルを分類するためのV
目次

最近、大きなビジョン・ランゲージモデル(VLM)が画像の分類方法を変えてきた、特にアートにおいて。これらのモデルは視覚データとテキストデータを組み合わせてるんだ。多くの分野で良い成果を上げてるけど、アートスタイルや作者、時代を分類する能力はまだはっきりしてない。この研究では、VLMがアートの異なる属性を効果的に分類できるかどうかを調べるよ、特にアートスタイルの分類に焦点を当ててる、これはアートヒストリアンにとって重要なんだ。

アート分類の課題

アート作品は普通の画像とは大きく異なる。複雑な構造と様々なスタイルがある。アーティストは異なる技法やシンボルを使うから、正しくカテゴリ分けするのが難しい。アートヒストリアンは、著者、時代、地理的起源などの属性に基づいてアートを分析して分類する方法を長年開発してきた。このプロセスを自動化できれば、時間とリソースを節約できつつ、正確性も確保できる。

VLMの概要

VLMは、大規模なデータセットから学ぶことで注目を集めてる。これには画像とテキストが含まれてる。両方のデータを一緒に処理することで、見えるものと読まれるものの関係を理解できる。この能力は、画像キャプショニングや視覚的質問応答などのタスクに特に役立つんだ。

この研究では、CLIP、LLaVA、OpenFlamingo、GPT-4oの4つの主要なVLMを評価するよ。アートスタイル、著者、時代ごとにどれだけうまく分類できるかをWikiArtとJenAestheticsという2つのデータセットを使って見て、新しいテストセットArTestも導入するよ。

アート分類におけるVLMの性能検証

テスト方法

選ばれたVLMの性能を評価するために、アートの3つの主要な属性、つまりアートスタイル、著者、時代を予測するように促すテストを行ったよ。この予測にはゼロショットアプローチを使ったから、モデルはこれらのタスクのために特別に訓練されてたわけじゃなくて、学んだ知識に基づいてる。

追加情報、例えばアーティストの名前や絵画の制作年でプロンプトを充実させることで、性能が向上するかどうかも評価したよ。

結果の概要

結果は、4つのVLM全てがアートスタイルを予測する際にランダムな確率よりも高い精度を持ってることを示した。特にGPT-4oはモデルの中で最もパフォーマンスが良くて、WikiArtデータセットで51%以上の精度を達成した。ただし、彼らのパフォーマンスにはアートヒストリアンが使う伝統的な方法との差があって、それはしばしば71%以上の精度を達成する。

また、特定のスタイルはVLMが正しく分類するのが難しかったことも分かった。ポップアートや印象派のようなスタイルは一般的に高い精度を示したけど、アクションペインティングやニューリアリズムのようなスタイルはしばしば誤分類されちゃう。

VLMの性能に関する詳細なインサイト

  • CLIP: このモデルはポップアートと印象派で最高の精度を示した。これらのスタイルを予測するときはだいたい正しい。
  • LLaVA: このモデルは浮世絵や点描で良い成果を上げた。ただ、マニエリスムに関してはうまくいかず、よく誤分類される。
  • OpenFlamingo: 複数のスタイルで最高の精度を達成したけど、アートスタイルに関しては限られた語彙しか持ってない時があって、関係ない用語を予測することもあった。
  • GPT-4o: このモデルはアートワークに対して詳細な説明を提供して、その予測の文脈を助けた。ただし、よく知られた作品を誤分類するという顕著なエラーもあった。

ArTest: 難しい分類のベンチマーク

ArTestベンチマークは、アート史において重要な挑戦的な絵画で構成されてる。これらのアートワークはアートヒストリアンにとってよく知られてるから、VLMの能力を評価するのに重要なんだ。選ばれた作品には「ユダの接吻」、「アルノルフィーニの肖像」、そして「ラス・メニーナス」のような重要な作品が含まれてる。ArTestベンチマークは、モデルの精度をテストするだけでなく、これらの有名な作品の背後にある文脈を理解してるかどうかも試すんだ。

プロンプトに対する感度

私たちの研究の面白い側面は、プロンプトの表現がVLMの予測に影響を与えることだったよ。例えば、絵画の著者や年についての追加のコンテキストが含まれると、LLaVAは精度が向上することがあった。これは、これらのモデルがアートスタイルと歴史的な時代の相関関係を認識できることを示唆してる。

VLMの分類における課題

VLMは期待が持てるけど、予測の精度はまだアートヒストリアンが使う伝統的な方法には及ばない。彼らの間違いの多くは理解できるけど、深刻な分類タスクには問題だ。一部のモデルは特定のスタイルで一貫したエラーを示した。例えば、マニエリスムをバロック時代の一部として誤分類したり、現代作品を印象派として予測するのは精度の欠如を示してる。

誤分類とその影響

誤分類は特に非専門家がこれらのモデルに頼ってアートワークをカテゴリ分けする場合に重大な問題を引き起こすことがある。例えば、ある絵画を間違ったアーティストやスタイルに帰属させることは、アート史を誤って表現することになる。これは、訓練されたアートヒストリアンによる注意深い監視が必要だということを強調してる。

これらの欠点にもかかわらず、誤分類には興味深い側面がある。新しいアートスタイル間のつながりや影響を明らかにする可能性があるから。誤分類は、伝統的な方法では分類が難しいアートワークを浮き彫りにし、さらなる調査を促すかもしれない。

アートヒストリアンの役割

VLMが進化しても、アートヒストリアンの貢献は替えがたいものだ。彼らの専門知識はアートワークが正しく分類され、アートが歴史に与える影響が十分に理解されることを保証する。VLMはアートヒストリアンの仕事を補完する役立つツールとして機能することができる。

専門家は、これらのモデルを訓練するために使用されるデータを洗練させ、精度と信頼性を高めることができる。さらに、現在の研究やアート界のトレンドに沿ってモデルを更新するために継続的な関与が重要だ。

結論

結論として、大きなビジョン・ランゲージモデルのアートヒストリーにおける評価は、可能性と限界の両方を示してる。これらのモデルはアートワークを分類する上でかなりの可能性を示してるけど、まだ関与する複雑さをマスターしていない。専門のアートヒストリアンの指導なしでは、彼らの精度は真剣な使用に対して不十分だ。これは、アートワークが正しく分類されることを確保するために専門家の監視が重要であることを強調してる。

これらのモデルはアート分類に新しい視点を提供し、誤解が存在する領域を明らかにしてくれる。VLMが進化し続ける中で、アートヒストリアンにとって貴重なツールとなり、さまざまなスタイルやアーティスト間のつながりを探求するのに役立つかもしれない。この技術と人間の専門知識の連携は、アートヒストリーの理解と評価を深める偉大な可能性を秘めてる。

オリジナルソース

タイトル: Have Large Vision-Language Models Mastered Art History?

概要: The emergence of large Vision-Language Models (VLMs) has recently established new baselines in image classification across multiple domains. However, the performance of VLMs in the specific task of artwork classification, particularly art style classification of paintings - a domain traditionally mastered by art historians - has not been explored yet. Artworks pose a unique challenge compared to natural images due to their inherently complex and diverse structures, characterized by variable compositions and styles. Art historians have long studied the unique aspects of artworks, with style prediction being a crucial component of their discipline. This paper investigates whether large VLMs, which integrate visual and textual data, can effectively predict the art historical attributes of paintings. We conduct an in-depth analysis of four VLMs, namely CLIP, LLaVA, OpenFlamingo, and GPT-4o, focusing on zero-shot classification of art style, author and time period using two public benchmarks of artworks. Additionally, we present ArTest, a well-curated test set of artworks, including pivotal paintings studied by art historians.

著者: Ombretta Strafforello, Derya Soydaner, Michiel Willems, Anne-Sofie Maerten, Stefanie De Winter

最終更新: 2024-09-05 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2409.03521

ソースPDF: https://arxiv.org/pdf/2409.03521

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事