Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス # 計算と言語 # 人工知能 # コンピュータと社会 # 機械学習

ArtELingo-28: アートを通じて文化をつなぐ

28言語でアート作品の説明を提供するプロジェクトで、より広い参加を促す。

Youssef Mohamed, Runjia Li, Ibrahim Said Ahmad, Kilichbek Haydarov, Philip Torr, Kenneth Ward Church, Mohamed Elhoseiny

― 1 分で読む


ArtELingo-28: ArtELingo-28: アートと語学の出会い 多言語アート説明を通して文化をつなぐ。
目次

最近見た絵を説明しようとして、色や感情を混ぜちゃったことある?それ、結構みんなが悩むことなんだよね!アートは普遍的な言語だから、英語を話す人だけじゃなくて、みんなが会話に参加できるようにしたいんだ。

そこで登場するのがArtELingo-28。これは28の異なる言語でアート作品を説明する新しいプロジェクトなんだ。目的は、さまざまな声や視点を提供して、より多くの人がアートとつながれるようにすること。どの文化も置き去りにしたくないんだよね。

言語バイアスの問題

最近のアートとテクノロジーに関する研究は英語に偏りがち。まるで、英語を話す人だけを招待してパーティーを開くみたいなもんだ。英語は広く話されているけど、世界中の約75%の人が母国語としては話さないんだ。じゃあ、いろんな文化の考えを聞かずにアートを楽しむってどういうこと?

ArtELingo-28って何?

ArtELingo-28は、WikiArtから集めた2000の画像で構成されたデータセットなんだ。それぞれの画像には、28の言語を話すさまざまな背景の人たちからの140の感情ラベルとキャプションが付いてる。このプロジェクトは、ただ絵に何があるかを名前を付けるだけじゃなくて、アートに対する個人的な感情や意見を強調してる。

例えば、韓国語のキャプションでは顔や髪に注目し、セツワナ語の説明では全体の雰囲気に焦点を当てるかもしれない。これによって、アートが文化的背景によってどのように解釈されるかが示されるんだ。

データ収集 - 大変な作業

この情報を集めるためには、かなりの努力が必要だった。220人のアノテーターを23カ国から集めて、専任チームが6000時間以上働いたんだ。まるで、いろんな視点からアートを理解しようとする小さな軍隊みたいだね!

データ収集は、ただ人にアートで見えるものを聞くだけじゃなかった。各アノテーターは、アートが自分に与えた感情に基づいて、8つの選択肢から1つを選んで説明したんだ。その説明は母国語でね。すごいチャレンジだったに違いない!

3つの評価セットアップ

ArtELingo-28が超役立つものになるように、3つの異なるシナリオでテストしたよ:

  1. ゼロショットセットアップ:これは、いくつかのリソースの豊富な言語(英語みたいな)で訓練されたモデルが、今まで見たことのない言語でテストされるっていうもの。新しい国で言葉を知らずに食べ物を注文しようとするみたいなもんだ!モデルは、訓練を受けていない言語でも結構いい結果を出したよ。

  2. フューショットセットアップ:これは、あまり知られていない言語のデータがちょっとだけあって、リソースの豊富な言語からはたくさんのデータがあるときに設計されたもの。新しい言語を学ぶけど、母国語の辞書をそばに持っている感じだね。ちょっと練習するだけで、モデルはかなり改善したよ!

  3. 1対全てのゼロショットセットアップ:これは、言語同士がどのように反応しあうかを見たもの。ヒンディー語で訓練されたモデルがウルドゥー語でうまくいくなら、両言語の文化的なつながりがあるかもしれない。こういう検証で、いろんな言語間の面白い関係が明らかになったんだ。

感情の役割

アートは感情がすべて。人それぞれの背景や経験によって、同じ絵に対する反応が違うんだ。ArtELingo-28は、さまざまな文化から感情的な視点を集めることに焦点を当ててる。各キャプションは、ただ見えるものについてだけじゃなく、どう感じるかを表していて、アートの理解に深みを加えてるんだ。

直面した課題

25の追加言語でデータを集めるのは簡単じゃなかった。リソースが少ない言語も多くて、協力してくれるネイティブスピーカーを見つけるのが難しかった。Amazon Mechanical Turkには助けてもらったけど、あまり使われていない言語のために適切な人を見つけるのはいつも簡単じゃなかったよ。

品質管理

集めた情報が最高のものになるように、すべてのステップを厳しく監視したよ。アノテーターには任務を明確に理解してもらうためのトレーニングを受けてもらった。簡単なミスは早い段階で見つけられ、質の高い情報を維持するために複数のチェックが行われた。全ての人の考えを偏りなく本当に表現することがこの作業の方針だったんだ。

感情的反応の比較

データを集めたら、さまざまな言語が感情をどう表現しているかを分析するのが重要だった。この分析で、同じ感情がラベル付けされても、言語によってその認識が大きく異なることがわかった。例えば、「恐れ」という言葉は、文化によって異なる意味合いを持つかもしれないんだ。

データセットの影響

ArtELingo-28は、ただのキャプション集じゃない。人間の感情と文化的視点の豊かな多様性を示そうとする試みなんだ。このデータセットがあれば、研究者やアーティスト、アートに興味がある人たちが、いろんな背景の人が同じアートをどう見るかを楽しむことができるんだ。

大規模言語モデルの使用

ArtELingo-28を効果的に機能させるために、大規模言語モデル(LLM)が使われた。これらのモデルは、多言語設定の課題を扱いながら、良質な説明を解釈し生成するのを助けてくれるんだ。一部のモデルは英語に重点を置くけど、ArtELingo-28は、グローバルな視点をより良く表現するために多くの言語を含むことを目指したんだ。

文化の重要性

文化は、私たちがすべてを見る方法や反応に影響を与える。異なる背景がユニークな視点をもたらすんだ。ArtELingo-28は、さまざまな感情や意見を捉えて、より広いオーディエンスが母国語でアートと関わることができるように、これらの違いを受け入れたいんだ。

多様性を受け入れる

ArtELingo-28は、いろんな文化が自分たちの考えを表現できるプラットフォームを提供することで、アートに対するさまざまな感情的反応を楽しむことを促してる。これが、コミュニティ間の架け橋を築き、お互いの視点に対する尊敬を育む手助けになるんだ。

最後の思い

要するに、ArtELingo-28はアートの世界をもっとアクセスしやすく、包括的にするための大きな一歩なんだ。異なる背景の人々の声に耳を傾けることで、私たちのアートへの理解を深め、人間であることの意味を豊かにできるんだ。結局のところ、アートは共有の体験で、みんながその会話に参加する機会を持つべきなんだよね。

オリジナルソース

タイトル: No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 Languages

概要: Research in vision and language has made considerable progress thanks to benchmarks such as COCO. COCO captions focused on unambiguous facts in English; ArtEmis introduced subjective emotions and ArtELingo introduced some multilinguality (Chinese and Arabic). However we believe there should be more multilinguality. Hence, we present ArtELingo-28, a vision-language benchmark that spans $\textbf{28}$ languages and encompasses approximately $\textbf{200,000}$ annotations ($\textbf{140}$ annotations per image). Traditionally, vision research focused on unambiguous class labels, whereas ArtELingo-28 emphasizes diversity of opinions over languages and cultures. The challenge is to build machine learning systems that assign emotional captions to images. Baseline results will be presented for three novel conditions: Zero-Shot, Few-Shot and One-vs-All Zero-Shot. We find that cross-lingual transfer is more successful for culturally-related languages. Data and code are provided at www.artelingo.org.

著者: Youssef Mohamed, Runjia Li, Ibrahim Said Ahmad, Kilichbek Haydarov, Philip Torr, Kenneth Ward Church, Mohamed Elhoseiny

最終更新: 2024-11-06 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2411.03769

ソースPDF: https://arxiv.org/pdf/2411.03769

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事