Avancées dans le scoring visuel avec QPT V2
QPT V2 améliore le scoring visuel en utilisant le modélisation d'images masquées et des données de haute qualité.
― 7 min lire
Table des matières
- Le défi des données limitées
- Le rôle du Modèle d’Image Masquée
- Cadre de Préentraînement Axé sur la Qualité et l'Esthétique
- Sélection des données
- Techniques de Dégradation
- Représentations Multi-échelles
- Évaluation de la Performance
- Efficacité des Données d'Entraînement
- Importance des Techniques de Dégradation
- Architecture du Modèle
- Fusion de Caractéristiques Multi-échelles
- Processus d'Entraînement
- Comparaison avec d'autres Méthodes
- Conclusion
- Source originale
- Liens de référence
L'évaluation visuelle consiste à juger de la qualité et de la beauté des images et des vidéos. C'est une tâche importante utilisée dans plusieurs domaines, comme l'amélioration de la qualité des vidéos et s'assurer que les images ont l'air top quand on les partage en ligne. Ce n'est pas toujours facile, car il y a plein de facteurs différents qui influencent la perception d'une image par un humain. Par exemple, la qualité se réfère à la clarté et aux détails de l'image, tandis que l'esthétique se concentre sur des éléments artistiques, comme la composition et la couleur.
Le défi des données limitées
Beaucoup de méthodes pour évaluer le contenu visuel s'appuient sur des quantités énormes de données étiquetées pour entraîner leurs modèles. Mais collecter ces données peut coûter cher et prendre beaucoup de temps. Du coup, les jeux de données disponibles pour l'entraînement peuvent être plutôt petits, ce qui complique l'apprentissage pour les modèles. Les méthodes traditionnelles qui se basent sur des caractéristiques faites main ne sont pas aussi efficaces que les nouvelles méthodes d'apprentissage qui peuvent apprendre plus intelligemment à partir des données.
Le rôle du Modèle d’Image Masquée
Le Modèle d’Image Masquée (MIM) est une technique plus récente qui a montré des promesses pour améliorer la façon dont les tâches d'évaluation visuelle sont réalisées. Dans le MIM, des parties des images d'entrée sont cachées, et le modèle apprend à reconstituer ces parties cachées. Cette méthode aide le modèle à comprendre à la fois la structure globale de l'image et les détails plus fins, ce qui est utile pour des tâches comme l'évaluation de la qualité et de l'esthétique.
Cadre de Préentraînement Axé sur la Qualité et l'Esthétique
Pour améliorer l'efficacité du MIM pour l'évaluation visuelle, un nouveau cadre de préentraînement appelé Préentraînement Axé sur la Qualité et l'Esthétique (QPT V2) a été proposé. Ce cadre utilise le MIM pour entraîner des modèles spécifiquement pour juger la qualité et la beauté des images et des vidéos. En se concentrant sur la compréhension à la fois du contenu global et des détails subtils, le QPT V2 vise à offrir une approche unifiée pour les tâches d'évaluation visuelle.
Sélection des données
Pour que le QPT V2 fonctionne bien, les données utilisées pour l'entraînement doivent être de haute qualité et riches en détails. Les images choisies pour l'entraînement devraient avoir une haute résolution et contenir de nombreux objets et éléments dans le cadre. Cette combinaison aide le modèle à mieux reconnaître les caractéristiques et améliore sa capacité à évaluer la qualité et l'esthétique de manière précise.
Techniques de Dégradation
En plus de sélectionner de bonnes données d'entraînement, diverses techniques de dégradation sont appliquées aux images pour aider le modèle à apprendre sur les imperfections du monde réel. Ces techniques peuvent ajouter du flou, du bruit ou d'autres altérations que les images peuvent subir lors de l'édition ou lors de la transmission. En s'entraînant sur ces images altérées, le modèle devient meilleur pour reconnaître à la fois les facteurs liés à la qualité et à l'esthétique.
Représentations Multi-échelles
La perception humaine du contenu visuel varie souvent à différentes échelles. C'est pourquoi le QPT V2 utilise une approche multi-échelles, permettant au modèle de considérer des caractéristiques de divers niveaux de détail. Une architecture spécifique appelée HiViT est choisie pour cela. Elle aide le modèle à apprendre des caractéristiques de plusieurs couches, s'assurant que les détails fins et grossiers sont bien pris en compte dans les visuels.
Évaluation de la Performance
Pour évaluer la performance du QPT V2, le cadre est testé sur divers benchmarks qui incluent différents aspects de l'évaluation visuelle, comme l'Évaluation de la Qualité d'Image (IQA), l'Évaluation de la Qualité Visuelle (VQA) et l'Évaluation de l'Esthétique d'Image (IAA). Les résultats montrent que le QPT V2 surpasse de nombreuses méthodes existantes, prouvant son efficacité à traiter des tâches d'évaluation visuelle.
Efficacité des Données d'Entraînement
Des recherches montrent qu'utiliser des images haute résolution avec une forte proportion d'éléments au premier plan améliore la performance. Quand le modèle est entraîné sur des données de qualité, il apprend à mieux relier les caractéristiques qu'il voit avec la qualité et la beauté des visuels. C'est crucial, car la qualité des données d'entraînement impacte directement la capacité du modèle à généraliser à de nouvelles tâches.
Importance des Techniques de Dégradation
Les types de dégradations appliquées pendant l'entraînement comptent aussi beaucoup. En choisissant soigneusement quelles dégradations utiliser, les modèles peuvent être entraînés pour mieux reconnaître la qualité et l'esthétique. Par exemple, utiliser des transformations de couleur et du flou peut améliorer la compréhension du modèle sur les différentes conditions qui peuvent affecter le contenu visuel.
Architecture du Modèle
Choisir la bonne architecture du modèle est essentiel pour un entraînement efficace. Le modèle HiViT est utilisé dans le QPT V2 car il soutient l'apprentissage à partir de plusieurs échelles, permettant au modèle de recueillir plus d'informations à partir des données qu'il traite. Cette architecture aide à mieux simuler comment les humains perçoivent les images et les vidéos, fournissant une évaluation plus précise de la qualité et de l'esthétique.
Fusion de Caractéristiques Multi-échelles
La fusion de caractéristiques multi-échelles est une technique utilisée pour combiner différents niveaux de caractéristiques apprises par le modèle. En fusionnant des caractéristiques provenant de différentes étapes de traitement, le QPT V2 améliore sa compréhension du contenu visuel. Cette méthode aide à améliorer les performances du modèle sur les tâches d'évaluation visuelle, lui permettant de mieux capturer à la fois les détails de haut niveau et de bas niveau dans les images.
Processus d'Entraînement
Entraîner le modèle implique d'utiliser des stratégies spécifiques pour s'assurer qu'il apprend efficacement. Par exemple, divers hyperparamètres sont ajustés pour optimiser le processus d'apprentissage. Le modèle est entraîné pendant un nombre déterminé d'époques, avec des stratégies en place pour évaluer les performances à chaque étape.
Comparaison avec d'autres Méthodes
Le QPT V2 est comparé avec des méthodes traditionnelles et d'apprentissage profond pour évaluer ses performances. Les résultats indiquent que le QPT V2 obtient souvent de meilleurs scores sur divers benchmarks par rapport à d'autres méthodes. Cela confirme son efficacité à traiter des tâches d'évaluation visuelle et suggère son potentiel pour des applications plus larges.
Conclusion
Le QPT V2 représente un grand progrès dans l'évaluation visuelle en utilisant une approche novatrice basée sur le Modèle d’Image Masquée. En se concentrant sur des données de haute qualité, des techniques de dégradation efficaces et un apprentissage multi-échelles, ce cadre montre de fortes performances dans l'évaluation de la qualité et de l'esthétique des images et des vidéos. La base posée par le QPT V2 a le potentiel d'inspirer d'autres recherches et développements dans le domaine, menant à de meilleurs outils pour évaluer le contenu visuel.
Titre: QPT V2: Masked Image Modeling Advances Visual Scoring
Résumé: Quality assessment and aesthetics assessment aim to evaluate the perceived quality and aesthetics of visual content. Current learning-based methods suffer greatly from the scarcity of labeled data and usually perform sub-optimally in terms of generalization. Although masked image modeling (MIM) has achieved noteworthy advancements across various high-level tasks (e.g., classification, detection etc.). In this work, we take on a novel perspective to investigate its capabilities in terms of quality- and aesthetics-awareness. To this end, we propose Quality- and aesthetics-aware pretraining (QPT V2), the first pretraining framework based on MIM that offers a unified solution to quality and aesthetics assessment. To perceive the high-level semantics and fine-grained details, pretraining data is curated. To comprehensively encompass quality- and aesthetics-related factors, degradation is introduced. To capture multi-scale quality and aesthetic information, model structure is modified. Extensive experimental results on 11 downstream benchmarks clearly show the superior performance of QPT V2 in comparison with current state-of-the-art approaches and other pretraining paradigms. Code and models will be released at \url{https://github.com/KeiChiTse/QPT-V2}.
Auteurs: Qizhi Xie, Kun Yuan, Yunpeng Qu, Mingda Wu, Ming Sun, Chao Zhou, Jihong Zhu
Dernière mise à jour: 2024-07-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.16541
Source PDF: https://arxiv.org/pdf/2407.16541
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://www.acm.org/publications/proceedings-template
- https://capitalizemytitle.com/
- https://www.acm.org/publications/class-2012
- https://dl.acm.org/ccs/ccs.cfm
- https://ctan.org/pkg/booktabs
- https://www.acm.org/publications/taps/describing-figures/
- https://github.com/KeiChiTse/QPT-V2