Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Multimédia

Évaluation de la qualité des modèles texte-à-vidéo

Évaluer le réalisme et la qualité des résultats texte-en-vidéo.

― 8 min lire


Évaluation de la qualitéÉvaluation de la qualitétexte-à-vidéoréalisme des vidéos générées.Améliorer les méthodes pour évaluer le
Table des matières

Créer des vidéos à partir de descriptions textuelles, appelées modèles texte-à-vidéo, devient de plus en plus populaire. Cependant, il est super important d'évaluer la qualité des vidéos que ces modèles produisent. Ça, c'est pour s'assurer que les vidéos semblent réelles et peuvent convaincre les spectateurs. Cet article discute de différentes manières d'évaluer la qualité des vidéos créées par ces modèles, met en avant quelques problèmes courants avec les méthodes actuelles, et présente une nouvelle approche pour évaluer ces vidéos.

Importance de l'évaluation de la qualité vidéo

Au fur et à mesure que la technologie texte-à-vidéo évolue, de plus en plus de modèles sont développés rapidement. Alors que l'amélioration de la technologie est une priorité, mesurer la qualité des vidéos générées est souvent négligé. En général, on vérifie un modèle en utilisant environ trois ou quatre métriques différentes, parfois accompagnées d'évaluations humaines. Ces évaluations révèlent souvent de grandes différences dans la qualité des vidéos générées par différents modèles. Donc, comprendre comment évaluer la qualité de ces vidéos de manière équitable devient essentiel. Malheureusement, la création de métriques de qualité fiables n'a pas reçu assez d'attention.

Travaux antérieurs sur l'évaluation de la qualité vidéo

Certaines recherches antérieures se sont concentrées sur l'évaluation de la qualité des images générées à partir de textes en utilisant des modèles texte-à-image (T2I). Cela impliquait l'utilisation de métriques de qualité automatiques et d'évaluations humaines pour comparer les résultats. Les chercheurs ont fourni une grande collection d'images et d'invites utilisées pour créer ces images, ainsi que des comparaisons entre ces métriques automatiques et les évaluations humaines. Cet article suit une idée similaire mais se concentre sur l'évaluation des vidéos plutôt que des images.

Viser de meilleures métriques d'évaluation

Notre but est de trouver un moyen de réduire le nombre de métriques nécessaires pour évaluer efficacement la sortie des modèles texte-à-vidéo. Cela inclut la vérification des résultats des métriques automatiques par rapport aux évaluations humaines. L'étude passe en revue plusieurs modèles texte-à-vidéo à la pointe de la technologie et discute des pièges courants liés aux méthodes d'évaluation existantes. On montre les résultats des évaluations humaines, en se concentrant sur le réalisme des vidéos et leur correspondance avec le texte original.

Métriques actuelles pour la qualité vidéo

Trois méthodes clés sont souvent utilisées pour évaluer la qualité vidéo :

  1. Inception Score (IS) : Cette métrique vise à mesurer à la fois la qualité et la diversité des images. Elle utilise un modèle appelé le "réseau inception" pour créer une distribution de probabilité pour les images. Une image de meilleure qualité devrait montrer moins d'incertitude, tandis que la diversité est vérifiée à travers la distribution globale des images.

  2. Fréchet Video Distance (FVD) : Cette méthode vérifie les différences entre les vidéos réelles et générées à l'aide de caractéristiques d'un classificateur vidéo pré-entraîné. Des scores plus bas suggèrent une meilleure qualité vidéo, indiquant des distributions similaires entre les vidéos réelles et générées.

  3. CLIPSim : Cette métrique utilise un modèle appelé CLIP pour évaluer à quel point la vidéo générée correspond à l'invite textuelle. Elle trouve le score de similarité pour chaque image et retourne le score moyen.

Bien que ces méthodes soient largement utilisées, elles ont chacune des faiblesses. Par exemple, l'IS peut ne pas réussir à distinguer avec précision entre des images de haute et de basse qualité, et le FVD nécessite des vidéos de référence, qui peuvent ne pas être disponibles dans tous les cas. Le CLIPSim a été critiqué pour sa dépendance à des paires image-texte bruyantes provenant d'internet.

Limitations des métriques actuelles

Malgré leur popularité, les métriques actuelles sont souvent insuffisantes. L'IS peut donner des scores trompeurs, le FVD galère avec les comparaisons de modèles, et le CLIPSim peut générer des scores pour des vidéos qui ne correspondent pas visuellement à leurs invites. Donc, il y a un besoin d'améliorer les méthodes d'évaluation pour évaluer la qualité vidéo de manière plus précise.

Naturalisme du contenu vidéo

L'idée de "naturalité" se réfère à la façon dont une vidéo semble réaliste. Les vidéos naturelles ont l'air authentiques et sans défauts évidents. Tandis que les mesures de qualité d'image vérifient la netteté ou la précision des couleurs, la naturalité se concentre sur l'apparence réelle des images. Les vidéos qui n'incluent pas de scènes ou d'objets reconnaissables semblent souvent artificielles. Les métriques existantes ont des limitations pour évaluer la naturalité, c'est pourquoi un nouveau classificateur pour la naturalité vidéo a été créé.

Classifier la naturalité

Pour évaluer la naturalité vidéo, plusieurs mesures statistiques ont été analysées, y compris :

  • Score de texture : Cela regarde l'uniformité de la texture dans les images de la vidéo, où les images naturelles tendent à avoir des textures plus complexes.

  • Score de netteté : Cela mesure le niveau de détail dans une image, déterminant à quel point les visuels sont distincts.

  • Score de distribution des couleurs : Cela évalue l'uniformité de la distribution des couleurs dans les images.

  • Score spectral : Cela vérifie à quel point une image dévie des statistiques d'image naturelles.

  • Score d'entropie : Cela examine le caractère aléatoire des valeurs des pixels dans les images.

  • Score de contraste : Cela mesure la différence entre les zones claires et sombres d'une image.

Tous ces scores aident à identifier si les vidéos semblent naturelles ou non.

Nouvelle approche d'évaluation

Pour répondre aux limitations des méthodes actuelles, nous avons proposé une nouvelle technique d'évaluation qui combine deux métriques. La première partie consiste à générer des vidéos à partir d'invites textuelles en utilisant un modèle texte-à-vidéo. Ensuite, des légendes sont produites pour chaque image de la vidéo. La deuxième partie combine deux métriques : l'une mesure la similarité entre l'invite textuelle originale et les légendes générées, tandis que l'autre utilise un classificateur pour évaluer la naturalité des vidéos. En combinant ces scores, on obtient une compréhension plus complète de la qualité vidéo.

Mesurer la similarité textuelle

Un autre aspect clé que nous évaluons est la similarité entre les légendes générées et l'invite textuelle originale. Ce processus implique de générer des légendes pour chaque image de la vidéo. Deux méthodes utilisées pour cette évaluation sont :

  • BERT : Ce modèle capture des relations plus complexes entre les phrases.

  • Similarité cosinus : Cela vérifie à quel point les mots se chevauchent dans différentes phrases.

Une combinaison équilibrée de ces deux méthodes assure une évaluation plus précise de la façon dont la vidéo correspond à son invite.

Création de jeux de données vidéo

Dans cette recherche, nous avons créé un jeu de données en utilisant 201 invites et 5 modèles texte-à-vidéo différents pour générer un total de 1 005 vidéos. Les invites ont été soigneusement sélectionnées pour couvrir un large éventail de sujets, assurant une diversité dans le contenu généré. Les vidéos variaient en style et en sujet, fournissant un jeu de données robuste pour l'analyse.

Évaluations humaines

Pour recueillir des scores de qualité pour les vidéos générées, des bénévoles ont été invités à noter chaque vidéo sur divers aspects, comme à quel point elle était alignée avec l'invite originale et sa qualité globale. Les bénévoles ont noté chaque vidéo sur une échelle de 1 à 10. Les retours de plus de 24 bénévoles ont généré des milliers d'évaluations, permettant une analyse complète de la qualité vidéo.

Conclusion

En passant en revue les méthodes existantes pour évaluer la qualité des sorties texte-à-vidéo, plusieurs problèmes communs ont été révélés. Cependant, alors que nous travaillons à améliorer les métriques d'évaluation en mettant davantage l'accent sur la naturalité vidéo et l'alignement sémantique, nous espérons améliorer le processus d'évaluation et fournir des données précieuses pour les développements futurs dans la technologie texte-à-vidéo.

En offrant un jeu de données ouvert de vidéos générées, nous espérons encourager la recherche supplémentaire dans le domaine, menant à de meilleurs modèles et techniques d'évaluation. Globalement, bien qu'il y ait une certaine cohérence entre les métriques automatiques et les évaluations humaines, le besoin d'évaluation humaine reste crucial alors que nous nous efforçons de rendre ces évaluations plus fiables et éclairantes.

Source originale

Titre: Measuring the Quality of Text-to-Video Model Outputs: Metrics and Dataset

Résumé: Evaluating the quality of videos generated from text-to-video (T2V) models is important if they are to produce plausible outputs that convince a viewer of their authenticity. We examine some of the metrics used in this area and highlight their limitations. The paper presents a dataset of more than 1,000 generated videos from 5 very recent T2V models on which some of those commonly used quality metrics are applied. We also include extensive human quality evaluations on those videos, allowing the relative strengths and weaknesses of metrics, including human assessment, to be compared. The contribution is an assessment of commonly used quality metrics, and a comparison of their performances and the performance of human evaluations on an open dataset of T2V videos. Our conclusion is that naturalness and semantic matching with the text prompt used to generate the T2V output are important but there is no single measure to capture these subtleties in assessing T2V model output.

Auteurs: Iya Chivileva, Philip Lynch, Tomas E. Ward, Alan F. Smeaton

Dernière mise à jour: 2023-09-14 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.08009

Source PDF: https://arxiv.org/pdf/2309.08009

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires