ArtELingo-28: Kulturen durch Kunst verbinden
Ein Projekt, das Kunstwerksbeschreibungen in 28 Sprachen bietet, um mehr Leute anzusprechen.
― 6 min Lesedauer
Inhaltsverzeichnis
- Das Problem mit Sprachbias
- Was ist ArtELingo-28?
- Datensammlung – Eine grosse Herausforderung
- Drei Evaluierungs-Setups
- Die Rolle der Emotionen
- Herausforderungen
- Qualitätskontrolle
- Vergleich der emotionalen Reaktionen
- Die Auswirkungen des Datensatzes
- Nutzung grosser Sprachmodelle
- Die Bedeutung von Kultur
- Vielfalt umarmen
- Abschliessende Gedanken
- Originalquelle
- Referenz Links
Hast du schon mal versucht, ein Gemälde zu beschreiben, das du gerade gesehen hast, und dabei irgendwie Farben und Gefühle durcheinandergebracht? Das ist ein häufiges Problem für viele Leute! Da Kunst eine universelle Sprache ist, wollen wir, dass jeder an der Konversation teilnimmt, nicht nur die, die Englisch sprechen.
Hier kommt ArtELingo-28 ins Spiel – ein neues Projekt, das Beschreibungen von Kunstwerken in 28 verschiedenen Sprachen bietet. Das Ziel ist es, mehr Menschen mit Kunst zu verbinden, indem vielfältige Stimmen und Perspektiven bereitgestellt werden, damit sich keine Kultur ausgeschlossen fühlt.
Das Problem mit Sprachbias
Die meisten aktuellen Studien zu Kunst und Technologie haben sich auf Englisch konzentriert. Es ist wie eine Party, zu der nur Englisch sprechende Leute eingeladen sind und alle anderen ignoriert werden. Während Englisch weit verbreitet ist, sprechen rund 75 % der Menschen weltweit es nicht als ihre erste Sprache. Wie können wir Kunst also wertschätzen, wenn wir die Gedanken vieler verschiedener Kulturen nicht hören?
Was ist ArtELingo-28?
ArtELingo-28 ist ein Datensatz, der aus 2000 Bildern von WikiArt besteht. Jedes Bild hat 140 Emotionen und Beschreibungen von Leuten mit unterschiedlichen Hintergründen, die 28 Sprachen sprechen. Dieses Projekt geht über das reine Benennen dessen, was im Bild ist, hinaus; es betont persönliche Gefühle und Meinungen über die Kunst.
Zum Beispiel könnte beim Betrachten eines Kunstwerks die koreanische Beschreibung das Gesicht und die Haare hervorheben, während die Setswana-Beschreibung sich auf die gesamte Stimmung konzentriert. Das zeigt, wie Kunst je nach kulturellem Hintergrund auf viele verschiedene Arten interpretiert werden kann.
Datensammlung – Eine grosse Herausforderung
Um all diese Informationen zu sammeln, war ein riesiger Aufwand nötig. Ein engagiertes Team arbeitete über 6.000 Stunden und stellte 220 Annotatoren aus 23 verschiedenen Ländern ein. Das ist wie eine kleine Armee, die sich darauf konzentriert, Kunst aus verschiedenen Perspektiven zu verstehen!
Die Datensammlung bestand nicht nur darin, die Leute zu fragen, was sie in der Kunst sehen. Jeder Annotator wählte eine Emotion aus einer Liste von acht Optionen – wie Aufregung, Wut oder Traurigkeit – basierend darauf, was das Kunstwerk bei ihnen auslöste. Dann erklärten sie ihre Wahl in ihrer Muttersprache. Was für eine Herausforderung das gewesen sein muss!
Drei Evaluierungs-Setups
Um sicherzustellen, dass ArtELingo-28 super nützlich ist, wurden drei verschiedene Szenarien getestet:
Zero-Shot Setup: Das ist, wenn ein Modell, das auf ein paar hoch ressourcesprachigen Sprachen (wie Englisch) trainiert wurde, an Sprachen getestet wird, die es noch nie gesehen hat. Es ist wie das Bestellen von Essen in einem neuen Land, ohne die Sprache überhaupt zu kennen! Das Modell schnitt ziemlich gut in den Sprachen ab, für die es nicht trainiert wurde.
Few-Shot Setup: Dieses Setup ist für den Fall gedacht, dass wir nur ein kleines bisschen Daten in weniger bekannten Sprachen, aber viel in hoch ressourcesprachigen Sprachen haben. Es ist wie das Lernen einer neuen Sprache, aber das Wörterbuch deiner Erstsprache ist direkt neben dir. Mit ein bisschen Übung verbesserte sich das Modell erheblich!
One-vs-All Zero-Shot Setup: In diesem Setup wurde untersucht, wie Sprachen aufeinander reagieren. Wenn ein Modell, das auf Hindi trainiert wurde, gut in Urdu abschneidet, könnte das bedeuten, dass es eine kulturelle Verbindung zwischen den beiden Sprachen gibt. Diese Art von Untersuchung zeigte interessante Beziehungen zwischen verschiedenen Sprachen auf.
Die Rolle der Emotionen
Kunst dreht sich alles um Gefühle. Menschen reagieren unterschiedlich auf dasselbe Gemälde, basierend auf individuellen Hintergründen und Erfahrungen. ArtELingo-28 konzentriert sich darauf, diese emotionalen Perspektiven aus verschiedenen Kulturen zu sammeln. Jede Beschriftung handelt nicht nur davon, was die Leute sehen, sondern auch davon, wie sie sich dabei fühlen, was ein reicheres Verständnis von Kunst vermittelt.
Herausforderungen
Daten in 25 weiteren Sprachen zu sammeln, war kein Spaziergang im Park. Viele Sprachen haben nicht viele Ressourcen, was es schwieriger macht, Muttersprachler zu finden, die bereit sind, beizutragen. Ein grosses Dankeschön an Amazon Mechanical Turk für die Unterstützung, aber es war nicht immer einfach, die richtige Person für weniger verbreitete Sprachen zu finden.
Qualitätskontrolle
Um sicherzustellen, dass die gesammelten Informationen von höchster Qualität sind, wurde jeder Schritt genau überwacht. Die Annotatoren erhielten Schulungen, um ihnen zu helfen, die Aufgabe klar zu verstehen. Einfache Fehler wurden frühzeitig erkannt, und es wurden mehrere Prüfungen durchgeführt, um hochwertige Informationen aufrechtzuerhalten. Das Leitprinzip war sicherzustellen, dass die Gedanken aller wirklich repräsentiert wurden, ohne Vorurteile.
Vergleich der emotionalen Reaktionen
Nachdem die Daten gesammelt wurden, war es unerlässlich zu analysieren, wie verschiedene Sprachen Emotionen ausdrückten. Diese Analyse zeigte, dass, obwohl dieselbe Emotion bezeichnet wurde, die Wahrnehmung je nach Sprache stark variieren konnte. Zum Beispiel könnte das Wort für "Angst" in verschiedenen Kulturen unterschiedliche Bedeutungen hervorrufen.
Die Auswirkungen des Datensatzes
ArtELingo-28 ist mehr als nur eine Sammlung von Beschriftungen. Es ist ein Versuch, die reiche Vielfalt menschlicher Emotionen und kultureller Perspektiven zu zeigen. Mit diesem Datensatz können Forscher, Künstler und alle, die sich für Kunst interessieren, wertschätzen, wie Menschen aus unterschiedlichen Hintergründen dasselbe Kunstwerk betrachten.
Nutzung grosser Sprachmodelle
Um ArtELingo-28 effektiv zu machen, wurden grosse Sprachmodelle (LLMs) eingesetzt. Diese Modelle konnten helfen, qualitativ hochwertige Beschreibungen zu interpretieren und zu erzeugen und dabei die Herausforderungen mehrsprachiger Umgebungen zu meistern. Obwohl sich einige Modelle hauptsächlich auf Englisch konzentrieren, wollte ArtELingo-28 viele Sprachen einbeziehen, um globale Perspektiven besser darzustellen.
Die Bedeutung von Kultur
Kultur beeinflusst, wie wir alles sehen und darauf reagieren, einschliesslich Kunst. Unterschiedliche Hintergründe bringen einzigartige Sichtweisen mit sich. ArtELingo-28 möchte diese Unterschiede umarmen, indem es vielfältige Gefühle und Meinungen erfasst und sicherstellt, dass ein breiteres Publikum Kunst in ihrer Muttersprache erleben kann.
Vielfalt umarmen
ArtELingo-28 ermutigt alle, verschiedene emotionale Reaktionen auf Kunst zu schätzen, indem es eine Plattform bietet, auf der verschiedene Kulturen ihre Gedanken ausdrücken können. Das hilft, eine Brücke zwischen den Gemeinschaften zu bauen und den Respekt für die Perspektiven des anderen zu fördern.
Abschliessende Gedanken
Zusammenfassend lässt sich sagen, dass ArtELingo-28 ein grosser Schritt in Richtung einer zugänglicheren und inklusiveren Kunstwelt ist. Indem wir den Stimmen von Menschen aus verschiedenen Hintergründen zuhören, können wir unser Verständnis von Kunst und dessen Bedeutung für die Menschheit bereichern. Am Ende des Tages ist Kunst eine gemeinsame Erfahrung, und jeder sollte die Chance haben, an der Konversation teilzunehmen.
Titel: No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 Languages
Zusammenfassung: Research in vision and language has made considerable progress thanks to benchmarks such as COCO. COCO captions focused on unambiguous facts in English; ArtEmis introduced subjective emotions and ArtELingo introduced some multilinguality (Chinese and Arabic). However we believe there should be more multilinguality. Hence, we present ArtELingo-28, a vision-language benchmark that spans $\textbf{28}$ languages and encompasses approximately $\textbf{200,000}$ annotations ($\textbf{140}$ annotations per image). Traditionally, vision research focused on unambiguous class labels, whereas ArtELingo-28 emphasizes diversity of opinions over languages and cultures. The challenge is to build machine learning systems that assign emotional captions to images. Baseline results will be presented for three novel conditions: Zero-Shot, Few-Shot and One-vs-All Zero-Shot. We find that cross-lingual transfer is more successful for culturally-related languages. Data and code are provided at www.artelingo.org.
Autoren: Youssef Mohamed, Runjia Li, Ibrahim Said Ahmad, Kilichbek Haydarov, Philip Torr, Kenneth Ward Church, Mohamed Elhoseiny
Letzte Aktualisierung: 2024-11-06 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2411.03769
Quell-PDF: https://arxiv.org/pdf/2411.03769
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://aixplain.com/
- https://www.cochrane.org/news/cochrane-evidence-different-languages
- https://www.csuerfsa.org/index.php/news--views/blog/blog/who-created-the-saying-beauty-is-in-the-eye-of-the-beholder
- https://github.com/Mo-youssef/artelingo-28/tree/main/results/minigpt/fewshot.csv
- https://github.com/Mo-youssef/artelingo-28/tree/main/results/minigpt/seenunseen.csv
- https://huggingface.co/FacebookAI/xlm-roberta-large
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.artelingo.org/