Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Calcul et langage# Ordinateurs et société

Les insights culturels améliorent l'IA pour les malvoyants

La recherche identifie des moyens d'améliorer les légendes d'images pour les personnes malvoyantes en les rendant culturellement pertinentes.

― 9 min lire


Les modèles d'IA ontLes modèles d'IA ontbesoin de contexteculturel.utilisateurs malvoyants.légendes d'images AI pour lesLes détails culturels améliorent les
Table des matières

Les grands modèles de vision-langage (VLM) peuvent vraiment aider les personnes aveugles ou malvoyantes. Ces modèles peuvent décrire des photos de la vie quotidienne, ce qui facilite la compréhension du monde pour ces personnes. Cependant, beaucoup de tests et de données utilisés pour évaluer ces modèles ne tiennent pas compte des divers horizons Culturels des utilisateurs ou des situations spécifiques dans lesquelles ces modèles sont utilisés.

Pour résoudre ce problème, des chercheurs ont créé une enquête pour savoir quel genre de Légendes les personnes malvoyantes préfèrent. Ils ont aussi examiné un ensemble de données existant appelé VizWiz, qui contient des Images prises par des personnes aveugles, et l'ont filtré pour créer un benchmark d'évaluation. Ce benchmark vise à évaluer l’efficacité de différents VLM dans des contextes culturels divers. Bien que les résultats des modèles les plus performants étaient bons, certaines difficultés comme des descriptions incorrectes ou trompeuses et des écarts entre les scores d'évaluation automatique et les opinions humaines ont été relevées.

À mesure que l'intelligence artificielle s'intègre davantage dans la vie quotidienne, il est important de se concentrer sur des applications centrées sur l'humain. Les VLM sont maintenant largement utilisés comme assistants numériques pour les personnes ayant des problèmes de vue. Comme des personnes de différents milieux culturels utilisent ces technologies, il est vital qu'elles soient non seulement précises mais aussi culturellement représentatives et inclusives.

Résultats de l'enquête sur les préférences de légendes

Dans l'enquête menée auprès de personnes malvoyantes, les participants ont évalué l'importance et l'utilité des informations culturelles incluses dans les légendes des images. Sur une échelle de 1 (pas important/utilitaire) à 5 (très important/utilitaire), les résultats ont montré que les détails culturels ont une grande importance pour de nombreux utilisateurs. Cependant, les benchmarks d’évaluation existants pour les VLM se sont principalement concentrés sur l’anglais et n’ont inclus que quelques références à plusieurs cultures. Certaines bases de données multiculturelles comme MaRVL et XM3600 contiennent des images spécifiques à certaines cultures, comme des tenues de mariage traditionnelles, mais elles ont aussi des images qui n'ont pas de signification culturelle réelle.

Ainsi, les chercheurs ont réalisé que ces ensembles de données pourraient ne pas mesurer efficacement la compréhension culturelle des VLM, même s'ils peuvent être utiles pour tester des capacités multilingues. De plus, évaluer ces systèmes en tant qu’assistants visuels présente ses propres défis, car la qualité des images, les objectifs des utilisateurs et le contenu peuvent varier énormément. Récemment, une étude de journal a été réalisée avec des personnes aveugles utilisant une application de description de scènes alimentée par l'IA, soulignant qu'il reste encore beaucoup d'améliorations à faire pour une expérience satisfaisante et fiable.

Création d’un benchmark d’évaluation centré sur la culture

Pour aborder les défis culturels et visuels, l’équipe a d'abord interrogé des personnes malvoyantes pour comprendre leurs préférences en matière de légendes d'images, en ce qui concerne l'inclusion d'informations culturelles. Ensuite, ils ont filtré l’ensemble de données VizWiz pour identifier des images contenant des concepts culturels implicites. Cet ensemble de données filtré sert de benchmark difficile pour évaluer la performance de divers modèles de légende d'image à la pointe de la technologie sur des images culturellement significatives.

L’accent mis sur la collecte d'avis de personnes malvoyantes est essentiel, étant donné que les modèles actuels sont souvent entraînés sans comprendre les perspectives personnelles et culturelles des personnes qui fournissent les descriptions d'images. Ainsi, il y a une demande croissante pour des données et des annotations plus soigneusement élaborées, sensibles aux différences culturelles.

Bien que plusieurs nouveaux ensembles de données aient été introduits pour diverses tâches multimodales, beaucoup ne tiennent toujours pas compte de cas d’utilisation spécifiques comme l’assistance visuelle pour les aveugles. L’ensemble de données VizWiz est particulièrement précieux car il contient des images prises par des utilisateurs malvoyants, accompagnées de légendes et de questions crowdsourcées. Cela le rend pertinent pour évaluer les défis réels rencontrés par les personnes ayant besoin d’informations visuelles.

Processus de filtrage des données

Les chercheurs ont engagé un total de 165 annotateurs via une plateforme en ligne pour les aider à filtrer l'ensemble de données. Ils ont d'abord collecté des informations sur le pays d'origine, la localisation actuelle et le contexte culturel de chaque annotateur. Ensuite, ils ont demandé à ces annotateurs de trouver des images dans l'ensemble de données VizWiz qu'ils considéraient comme spécifiques à une culture, en fournissant des raisons pour leurs choix ainsi que des légendes préférées. L’équipe a seulement conservé les images qui ont reçu l'approbation d'au moins deux annotateurs, ce qui a abouti à une collection diversifiée d'images représentant 60 cultures différentes.

Après avoir recueilli les retours, il est devenu évident que plus de 96 % des annotateurs suggéraient des révisions culturelles des légendes originales, mettant en lumière un besoin fort de légendes qui reflètent les nuances culturelles. Les chercheurs ont incorporé ces retours précieux dans leur analyse et leur évaluation des VLM.

Évaluation des performances des VLM

La prochaine étape était d'évaluer la performance de légende de divers VLM en utilisant l'ensemble de données filtré VizWiz. Les chercheurs ont expérimenté de nombreux modèles en accès libre et quelques modèles en accès restreint. Ils visaient à voir à quel point ces modèles pouvaient générer des légendes précises pour des images avec et sans contexte culturel.

L'évaluation a été réalisée de deux manières : par un scoring automatique des légendes générées par le modèle et par une évaluation humaine. Le scoring automatique s’appuyait sur des métriques traditionnelles utilisées pour évaluer les légendes d'images, tandis que les évaluateurs humains avaient pour tâche de déterminer l'exactitude et la pertinence de chaque légende par rapport à l'image correspondante.

Résultats et conclusions

L'évaluation automatique a montré des tendances claires : les modèles en accès restreint ont généralement mieux performé que ceux en accès libre. Notamment, les modèles fermés étaient capables de générer des légendes plus descriptives qui correspondaient bien aux attentes humaines. En revanche, les modèles en accès libre produisaient parfois des légendes plus courtes et moins informatives. En fait, le contexte culturel semblait améliorer significativement la performance des modèles en accès restreint par rapport à leur performance sur les légendes originales.

L'évaluation humaine a également corroboré cette constatation, où les participants ont exprimé une préférence pour les légendes générées en utilisant des informations culturelles. Dans la plupart des cas, les annotateurs humains ont préféré les légendes contenant un contexte culturel par rapport à celles générées sans. Cela révèle le potentiel des VLM à créer des descriptions plus captivantes et pertinentes lorsque des aspects culturels sont inclus.

Défis et domaines d'amélioration

Malgré les résultats prometteurs, des défis subsistent. De nombreux modèles en accès libre continuent de peiner à générer des légendes précises, notamment pour des images culturellement riches ou complexes. Certaines images étaient associées à des phrases génériques qui ne véhiculaient pas d'informations culturelles ou contextuelles spécifiques. De plus, des problèmes comme l'hallucination-où les modèles créent du contenu qui n'est pas réellement présent dans l'image-persistent à travers diverses applications de modèles de langage.

Une analyse des légendes générées par les modèles a souligné que certains modèles, en particulier ceux en accès libre, produisaient des hallucinations excessives, tandis que les modèles en accès restreint avaient tendance à fournir plus de détails culturellement pertinents. Cela indique que le scoring automatique peut ne pas représenter pleinement l'efficacité des modèles, en particulier en ce qui concerne la capture de la richesse culturelle.

L'importance de la sensibilisation culturelle

Alors que les VLM s'intègrent davantage dans la vie quotidienne, notamment pour les individus ayant des déficiences visuelles, il est crucial de s'assurer qu'ils soient culturellement conscients et inclusifs. Les chercheurs espèrent que leurs efforts de filtrage et d'annotation des données aideront à améliorer le fonctionnement de ces modèles dans des scénarios réels, permettant d'assurer non seulement l'exactitude mais aussi un profond respect pour la diversité culturelle.

En mettant continuellement l'accent sur la qualité des données et la représentation culturelle, les chercheurs en IA peuvent progresser vers la création de modèles de vision-langage plus réfléchis et capables. Ce travail met également en lumière le besoin de stratégies plus complètes pour évaluer et affiner les systèmes d'IA afin qu'ils puissent mieux servir tous les utilisateurs, quelle que soit leur origine.

Conclusion

Les efforts pour créer des VLM centrés sur la culture sont une étape importante pour garantir que la technologie reste accessible et utile pour tous. En priorisant les voix et les préférences des individus aveugles ou malvoyants, les chercheurs peuvent contribuer à affiner les applications d'IA qui répondent à un large éventail d'expériences. Les travaux futurs visent à enrichir encore davantage l'ensemble de données tout en explorant des cas d'utilisation et des tâches supplémentaires qui soulignent l'importance de la compréhension culturelle dans l'IA.

Source originale

Titre: Vision-Language Models under Cultural and Inclusive Considerations

Résumé: Large vision-language models (VLMs) can assist visually impaired people by describing images from their daily lives. Current evaluation datasets may not reflect diverse cultural user backgrounds or the situational context of this use case. To address this problem, we create a survey to determine caption preferences and propose a culture-centric evaluation benchmark by filtering VizWiz, an existing dataset with images taken by people who are blind. We then evaluate several VLMs, investigating their reliability as visual assistants in a culturally diverse setting. While our results for state-of-the-art models are promising, we identify challenges such as hallucination and misalignment of automatic evaluation metrics with human judgment. We make our survey, data, code, and model outputs publicly available.

Auteurs: Antonia Karamolegkou, Phillip Rust, Yong Cao, Ruixiang Cui, Anders Søgaard, Daniel Hershcovich

Dernière mise à jour: 2024-07-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.06177

Source PDF: https://arxiv.org/pdf/2407.06177

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires