Évaluation des histoires visuelles générées par machine
Une nouvelle méthode pour évaluer la qualité des histoires racontées par les machines est présentée.
― 9 min lire
Table des matières
- Qu'est-ce que la narration visuelle ?
- Limitations des méthodes d'évaluation actuelles
- Ancrage visuel
- Cohérence
- Répétition
- Comparaison entre histoires de machines et histoires humaines
- Évaluation des modèles
- Jeux de données utilisés
- Modèles d'apprentissage automatique
- Modèles populaires
- Configuration expérimentale
- Performance des modèles
- Insights obtenus
- Évaluation humaine
- Conclusion
- Travaux futurs
- Source originale
- Liens de référence
La narration visuelle, c'est créer une histoire à partir d'une série d'images. C'est pas évident ni pour les humains ni pour les machines. Pour les machines, évaluer à quel point elles racontent bien des histoires, c'est encore plus compliqué car il n'y a pas vraiment de consensus sur ce qui fait une bonne histoire.
Cet article propose une nouvelle manière d'évaluer la qualité des histoires. Cette méthode se concentre sur la similarité entre les histoires générées et celles créées par des humains. Elle se base sur trois points principaux : à quel point les images sont liées à l’histoire (Ancrage Visuel), la Cohérence de l’histoire (cohérence), et la répétition (répétition).
Après avoir appliqué cette évaluation à différents modèles de narration, il s'avère qu'un modèle nommé LLaVA est le meilleur dans l'ensemble. Cependant, un autre modèle plus léger appelé TAPM fonctionne presque aussi bien. Quand les caractéristiques visuelles et linguistiques de TAPM ont été améliorées, il a obtenu des résultats très proches de LLaVA, malgré sa taille plus petite.
Une évaluation par des humains a aussi été réalisée, montrant que juste égaler les niveaux d'ancrage visuel, de cohérence et de répétition ne suffit pas à faire une grande histoire. Les gens préfèrent toujours les histoires écrites par des humains à celles créées par des machines.
Qu'est-ce que la narration visuelle ?
La narration visuelle consiste à créer un récit à partir d'une série d'images ou de cadres vidéo. Ce n'est pas juste décrire ce qui se passe dans les images ; c'est les tisser ensemble pour former un récit cohérent. Pour les humains comme pour les modèles de machines, relier le contenu visuel est crucial pour raconter une histoire.
Un des principaux défis dans l'évaluation des histoires générées par des machines est leur nature créative. En général, des histoires écrites par des humains sont utilisées pour entraîner ces modèles, en pensant qu'elles représentent un standard de qualité. Cependant, comparer directement les histoires de machines et celles des humains est souvent insuffisant. Ça néglige des aspects importants comme à quel point les images sont liées à l'histoire, la cohérence de celle-ci, et le niveau de répétition qui y figure.
Des efforts récents ont tenté de surmonter ces limites en proposant de nouvelles métriques. Ces métriques évaluent les histoires selon leurs propres mérites plutôt que de simplement vérifier les similarités avec une histoire de référence. Comme une séquence d'images peut inspirer plusieurs histoires plausibles, cette évaluation à un niveau supérieur est essentielle.
Limitations des méthodes d'évaluation actuelles
Bien que la cohérence et l'ancrage visuel soient importants, se baser uniquement sur ces critères peut ne pas fournir assez d'informations sur la qualité de l'histoire. Il n'y a pas de règles fixes pour déterminer les niveaux idéaux pour ces éléments, ce qui rend difficile de savoir quand une histoire est "bonne".
Pour y remédier, une nouvelle méthode d'évaluation est proposée, qui mesure à quel point une histoire générée par une machine se rapproche de celles écrites par des humains. Cela se fait en évaluant diverses dimensions importantes grâce à des métriques qui ne dépendent pas de comparaisons directes avec des histoires humaines.
Ancrage visuel
L'ancrage visuel évalue à quel point une histoire est connectée aux images. La technique consiste à comparer les phrases nominales dans l'histoire avec les objets présents dans les images. En utilisant des scores spécifiques, on peut quantifier le lien entre le texte et les éléments visuels. Un score plus élevé indique un lien plus fort entre l'histoire et les images.
Cohérence
La cohérence évalue à quel point les phrases dans une histoire sont logiquement reliées. Une façon courante de déterminer la cohérence est de calculer la probabilité que chaque phrase suive les précédentes. Cela se fait en utilisant des modèles entraînés pour prédire l'ordre des phrases. Un score plus élevé signifie que les phrases s'articulent bien, suggérant un flux narratif plus fluide.
Répétition
La répétition vérifie les Répétitions inutiles dans l'histoire. Il est essentiel que les histoires évitent de répéter trop souvent les mêmes phrases ou idées. Cette mesure est calculée en comparant différentes parties du texte et en cherchant des mots qui se chevauchent. Un score plus bas indique qu'une histoire est moins répétitive, ce qui est généralement mieux.
Comparaison entre histoires de machines et histoires humaines
Pour voir comment les histoires générées par des machines se comparent à celles des humains, on applique les trois métriques de cohérence, d'ancrage visuel et de répétition. On calcule les différences absolues entre les histoires générées par des machines et celles des humains pour chaque métrique. Ensuite, un score global est déterminé en faisant la moyenne de ces différences. Un score plus bas suggère que l'histoire générée par la machine est plus proche des standards humains.
Évaluation des modèles
Différents modèles de machines conçus pour la narration visuelle ont été comparés en utilisant cette méthode d'évaluation. Le populaire jeu de données VIST, qui comprend des images et les histoires écrites par des humains, a servi de référence.
Jeux de données utilisés
Le jeu de données VIST est le premier grand jeu de données créé pour la narration visuelle. Il inclut des séquences d'images ordonnées avec des histoires rédigées par des personnes. Chaque séquence comprend en général cinq images avec une histoire correspondante. Ce jeu de données a inspiré de nombreux modèles au fil du temps.
En revanche, d'autres jeux de données ont émergé pour simplifier les défis liés à la narration dans le monde réel. Certains jeux de données utilisent des images synthétiques pour limiter la complexité, tandis que d'autres garantissent une représentation cohérente des personnages en utilisant des images de films.
Modèles d'apprentissage automatique
Plusieurs méthodes informatiques ont été utilisées pour générer des histoires à partir de données visuelles. Cela inclut des réseaux de neurones et des transformateurs. Cependant, malgré les différences d'architecture, de nombreux modèles font face à des défis similaires en matière d'évaluation.
Modèles populaires
GLAC Net : Ce modèle utilise une architecture standard d'encodeur-décodeur pour évaluer le contexte global des séquences d'images et générer des histoires.
AREL : Ce modèle adopte une approche adversariale, en associant un modèle de politique qui génère des histoires à un modèle de récompense qui évalue ces histoires par rapport à des points de référence.
TAPM : Ce modèle plus récent combine des composants de langage et de vision pré-entraînés pour générer des récits cohérents.
BLIP-2 et LLaVA : Ce sont des modèles fondamentaux conçus pour des tâches de langage et de vision plus larges. Ils peuvent aussi générer des histoires quand on leur demande correctement.
Configuration expérimentale
Des histoires ont été générées pour le test set VIST en utilisant les différents modèles. Chaque modèle a employé différentes stratégies et réglages pour créer les récits. L'efficacité de chaque modèle a été évaluée en fonction des scores de distance dérivés des métriques d'évaluation proposées.
Performance des modèles
Les scores ont révélé que LLaVA produisait des histoires qui étaient les plus proches des créations humaines, suivi de près par TAPM. Fait intéressant, même si LLaVA est beaucoup plus grand, TAPM a montré une qualité comparable avec sa taille plus petite.
Insights obtenus
Les performances ont montré comment l'amélioration des composants linguistiques et visuels de TAPM a conduit à de meilleures capacités de narration. Ces améliorations ont permis à TAPM d'atteindre des performances similaires à celles de LLaVA, prouvant que même les modèles plus petits peuvent obtenir de bons résultats avec les bonnes améliorations.
Évaluation humaine
Pour comprendre si les scores numériques correspondaient à la perception des gens, une évaluation humaine a été réalisée, comparant les deux meilleurs modèles : TAPM et LLaVA. Les participants ont analysé des histoires générées par les modèles choisies au hasard aux côtés d'histoires humaines.
Les résultats de l'évaluation ont indiqué une préférence claire pour les histoires humaines, soulignant que les récits générés par des machines, même ceux avec des scores métriques élevés, manquent souvent de certains éléments appréciés par les évaluateurs humains. Ces éléments peuvent inclure une profondeur émotionnelle ou un récit global clair.
Conclusion
Le travail réalisé offre une nouvelle façon d'évaluer les histoires générées par des modèles, en se concentrant sur leurs similarités avec les histoires humaines. Grâce à des tests sur divers modèles, on a découvert que même les modèles d'apprentissage automatique avancés ont encore des progrès à faire en matière de narration. Bien que la technologie ait fait de grands progrès, la touche humaine dans la construction d'un récit reste unique.
Travaux futurs
Bien que cette recherche présente des résultats précieux, l'échelle de l'étude pourrait être élargie. Des ensembles de données plus diversifiés et une plus grande variété de modèles pourraient fournir une compréhension encore plus riche de la narration générée par les machines. La communauté est encouragée à créer des ensembles de données qui incluent diverses perspectives culturelles.
Les résultats ici établissent les bases pour de futurs avancements dans la narration visuelle et aident à identifier les éléments nécessaires pour des récits vraiment captivants. Alors que la narration continue d'évoluer, les machines et les humains peuvent apprendre les uns des autres pour améliorer leurs récits.
Titre: Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition
Résumé: Visual storytelling consists in generating a natural language story given a temporally ordered sequence of images. This task is not only challenging for models, but also very difficult to evaluate with automatic metrics since there is no consensus about what makes a story 'good'. In this paper, we introduce a novel method that measures story quality in terms of human likeness regarding three key aspects highlighted in previous work: visual grounding, coherence, and repetitiveness. We then use this method to evaluate the stories generated by several models, showing that the foundation model LLaVA obtains the best result, but only slightly so compared to TAPM, a 50-times smaller visual storytelling model. Upgrading the visual and language components of TAPM results in a model that yields competitive performance with a relatively low number of parameters. Finally, we carry out a human evaluation study, whose results suggest that a 'good' story may require more than a human-like level of visual grounding, coherence, and repetition.
Auteurs: Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle
Dernière mise à jour: 2024-10-25 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.04559
Source PDF: https://arxiv.org/pdf/2407.04559
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.