Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Évaluer la qualité du contenu vidéo généré par IA

Évaluer la qualité des vidéos générées par l'IA pour améliorer la création de contenu.

― 7 min lire


Évaluation de la qualitéÉvaluation de la qualitévidéo par l'IAcontenu vidéo généré par IA.Nouveau modèle améliore l'évaluation du
Table des matières

Ces dernières années, le domaine de l'intelligence artificielle (IA) a fait des progrès significatifs dans la création de contenu vidéo automatiquement à partir de descriptions textuelles. Ce processus est connu sous le nom de génération texte-en-vidéo (T2V). Au fur et à mesure que cette technologie continue de se développer, il y a un besoin croissant d'évaluer la qualité des vidéos produites. C'est particulièrement important pour le contenu généré par IA, car ces vidéos présentent souvent des problèmes de qualité distincts par rapport au contenu vidéo traditionnel.

Le défi de l'évaluation de la qualité vidéo

Quand on parle de qualité vidéo, plusieurs facteurs entrent en jeu. Pour le contenu généré par IA, la qualité peut varier considérablement en raison de diverses distorsions qui peuvent être présentes. Ces distorsions peuvent entraîner du flou, des mouvements non naturels et des incohérences entre ce qui est décrit dans le texte et ce qui est montré dans la vidéo.

Évaluer la qualité de ces vidéos est crucial pour comprendre comment la technologie fonctionne et pour améliorer les méthodes utilisées pour les créer. Cependant, créer des mesures fiables pour la qualité vidéo s'est révélé être une tâche difficile. Les méthodes existantes échouent souvent à capturer avec précision les caractéristiques uniques des vidéos générées par IA.

Création d'un nouveau jeu de données

Pour résoudre ce problème, un nouveau jeu de données a été développé pour évaluer les vidéos générées par IA. Ce jeu de données se compose d'une grande collection de vidéos produites par divers modèles texte-en-vidéo utilisant une large gamme de prompts textuels. L'objectif était de rassembler un ensemble diversifié de vidéos couvrant différents sujets et scènes.

Le jeu de données comprend 2 808 vidéos générées à l'aide de six modèles différents. Chaque vidéo a été créée sur la base de 468 prompts textuels soigneusement choisis, conçus pour refléter des scénarios du monde réel. Les vidéos produites sont ensuite évaluées selon trois critères principaux : Qualité spatiale (comment les visuels apparaissent), qualité temporelle (comment le mouvement se présente) et Alignement Texte-Vidéo (à quel point la vidéo correspond à la description textuelle).

Évaluation de la qualité vidéo

Pour évaluer les vidéos du jeu de données, des évaluations subjectives et objectives ont été employées.

Évaluation subjective

Dans l'évaluation subjective, des personnes ont donné leurs notes pour les vidéos basées sur les trois critères de qualité. Les participants ont regardé les vidéos et les ont notées sur des aspects comme la clarté, la continuité du mouvement et si les visuels correspondaient aux prompts textuels fournis. Cette étape est essentielle car elle capture la perception humaine, qui est souvent plus nuancée que ce que les systèmes automatisés peuvent évaluer.

Évaluation objective

Dans l'évaluation objective, des métriques de qualité existantes ont été appliquées au jeu de données pour tester leur efficacité. Ces métriques mesurent les caractéristiques de qualité basées sur des processus automatisés, qui peuvent inclure l'analyse des caractéristiques visuelles, la cohérence du mouvement et l'alignement avec le texte. Cependant, les résultats ont indiqué que beaucoup de ces métriques standards n'étaient pas bien adaptées à la complexité des vidéos générées par IA. Elles échouaient souvent à refléter avec précision la qualité perçue par les spectateurs humains.

Le nouveau modèle d'évaluation de la qualité

Pour surmonter les limitations rencontrées avec les méthodes existantes, un nouveau modèle d'évaluation de la qualité vidéo a été proposé. Ce modèle est conçu pour évaluer simultanément la qualité spatiale, la qualité temporelle et l'alignement texte-vidéo.

Extraction de caractéristiques

Le modèle utilise diverses caractéristiques extraites des vidéos pour évaluer la qualité. Par exemple :

  • Caractéristiques spatiales : Ces caractéristiques capturent les éléments visuels des différentes images. Le modèle prend en compte non seulement l'apparence générale mais aussi des détails comme la netteté et la clarté des objets.
  • Caractéristiques temporelles : Ces caractéristiques évaluent la fluidité du mouvement dans la vidéo. C'est particulièrement important pour évaluer la continuité des actions et comment elles se transforment de manière fluide d'un cadre à l'autre.
  • Caractéristiques d'alignement : Ici, le modèle mesure à quel point le contenu vidéo s'aligne avec la description textuelle. Cela garantit que les visuels sont pertinents et exacts par rapport à ce que le spectateur est censé comprendre du texte.

Fusion des caractéristiques

Une fois ces caractéristiques extraites, elles sont combinées pour créer une vue d'ensemble de la qualité vidéo. Ce processus de fusion améliore la représentation des informations de qualité, permettant une évaluation plus approfondie. Le modèle prend essentiellement toutes les informations rassemblées et les utilise pour produire des scores de qualité pour les aspects spatiaux, temporels et d'alignement.

Résultats et conclusions

La performance du nouveau modèle d'évaluation de la qualité a été évaluée en utilisant le jeu de données et comparée aux métriques existantes. Le modèle a montré une amélioration notable dans l'évaluation de la qualité vidéo sur les trois critères.

Évaluation de la qualité spatiale

Pour la qualité spatiale, le modèle a pu capturer avec précision diverses distorsions visuelles souvent trouvées dans les vidéos générées par IA, telles que le flou et les objets mal alignés dans les scènes. Cette performance a surpassé celle des métriques traditionnelles qui avaient souvent du mal avec ces problèmes.

Évaluation de la qualité temporelle

En ce qui concerne l'évaluation de la qualité temporelle, le nouveau modèle a excellé dans la reconnaissance des incohérences de mouvement. Cela était crucial pour traiter des problèmes comme le tremblement des images ou les mouvements non naturels, qui peuvent affecter le contenu généré par IA. En identifiant efficacement ces défauts, le modèle peut aider à orienter les améliorations des techniques de génération.

Évaluation de l'alignement texte-vidéo

En termes d'alignement avec les prompts textuels, le modèle a fourni de meilleures informations que les méthodes existantes. Il a pu mettre en évidence où le contenu vidéo ne correspondait pas à la description, facilitant la localisation des zones nécessitant des améliorations.

Conclusion

Alors que le contenu vidéo généré par IA continue de gagner du terrain dans divers secteurs comme le cinéma, la publicité et les jeux, l'importance de l'évaluation de la qualité ne peut pas être sous-estimée. Avec le développement d'un jeu de données dédié et d'un modèle d'évaluation de la qualité robuste, les parties prenantes peuvent mieux évaluer la performance des techniques de génération vidéo.

Cette initiative met non seulement en lumière la qualité des vidéos générées par IA, mais offre également des voies pour des avancées futures dans les technologies de génération vidéo. Les informations obtenues à partir du processus d'évaluation peuvent conduire à des améliorations, menant finalement à du contenu vidéo plus engageant et précis qui répond aux attentes du public.

En résumé, la combinaison d'un jeu de données complet et d'un nouveau modèle d'évaluation de la qualité fournit une base solide pour évaluer et améliorer le contenu vidéo généré par IA. C'est une étape nécessaire pour garantir que les avancées dans la génération vidéo s'alignent avec les visuels et les récits que recherchent les audiences.

Source originale

Titre: Benchmarking Multi-dimensional AIGC Video Quality Assessment: A Dataset and Unified Model

Résumé: In recent years, artificial intelligence (AI)-driven video generation has gained significant attention. Consequently, there is a growing need for accurate video quality assessment (VQA) metrics to evaluate the perceptual quality of AI-generated content (AIGC) videos and optimize video generation models. However, assessing the quality of AIGC videos remains a significant challenge because these videos often exhibit highly complex distortions, such as unnatural actions and irrational objects. To address this challenge, we systematically investigate the AIGC-VQA problem, considering both subjective and objective quality assessment perspectives. For the subjective perspective, we construct the Large-scale Generated Video Quality assessment (LGVQ) dataset, consisting of 2,808 AIGC videos generated by 6 video generation models using 468 carefully curated text prompts. We evaluate the perceptual quality of AIGC videos from three critical dimensions: spatial quality, temporal quality, and text-video alignment. For the objective perspective, we establish a benchmark for evaluating existing quality assessment metrics on the LGVQ dataset. Our findings show that current metrics perform poorly on this dataset, highlighting a gap in effective evaluation tools. To bridge this gap, we propose the Unify Generated Video Quality assessment (UGVQ) model, designed to accurately evaluate the multi-dimensional quality of AIGC videos. The UGVQ model integrates the visual and motion features of videos with the textual features of their corresponding prompts, forming a unified quality-aware feature representation tailored to AIGC videos. Experimental results demonstrate that UGVQ achieves state-of-the-art performance on the LGVQ dataset across all three quality dimensions. Both the LGVQ dataset and the UGVQ model are publicly available on https://github.com/zczhang-sjtu/UGVQ.git.

Auteurs: Zhichao Zhang, Xinyue Li, Wei Sun, Jun Jia, Xiongkuo Min, Zicheng Zhang, Chunyi Li, Zijian Chen, Puyi Wang, Zhongpeng Ji, Fengyu Sun, Shangling Jui, Guangtao Zhai

Dernière mise à jour: 2024-12-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.21408

Source PDF: https://arxiv.org/pdf/2407.21408

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires