Simple Science

La science de pointe expliquée simplement

# Informatique# Multimédia# Vision par ordinateur et reconnaissance des formes

Évaluer la qualité d'image en réalité virtuelle

Une nouvelle méthode améliore l'évaluation de la qualité des images VR à 360 degrés.

― 8 min lire


Nouveau Méthode deNouveau Méthode deQualité d'Image VRla qualité des médias immersifs.Technique d'évaluation améliorée pour
Table des matières

À mesure que la tech avance, on utilise de plus en plus la réalité virtuelle (RV) dans notre quotidien. Un des types de contenu en RV, ce sont les images omnidirectionnelles qui offrent une vue à 360 degrés d'une scène. Évaluer la qualité de ces images est super important pour garantir une expérience agréable aux utilisateurs. C'est là qu'intervient l'évaluation de la qualité des images omnidirectionnelles (OIQA). L'OIQA aide à prédire à quel point une image omnidirectionnelle a l'air bien pour un spectateur.

C'est quoi l'évaluation de la qualité des images omnidirectionnelles ?

L'OIQA se concentre sur la façon dont une image est perçue. L'objectif est de mesurer la qualité de l'image sans avoir besoin d'une image de référence, ce qu'on appelle l'évaluation "sans référence". Cette méthode est particulièrement utile parce que, dans de nombreuses situations, on n'a pas toujours un exemple parfait à comparer.

En général, les méthodes d'évaluation traditionnelles se basent sur la comparaison d'images, ce qui peut être limitant. L'OIQA vise à comprendre des qualités comme la fidélité, le naturel et les artefacts qui peuvent influencer la perception de l’image par le spectateur.

Différents modèles pour évaluer la qualité des images

Les chercheurs ont développé divers modèles pour évaluer la qualité des images. Ces modèles se répartissent en deux catégories principales : ceux qui utilisent une image de référence et ceux qui n'en utilisent pas. Les modèles basés sur une référence nécessitent de connaître l'image originale pour évaluer la qualité, tandis que les modèles sans référence se basent uniquement sur l'image déformée.

Les modèles de référence, appelés OIQA à référence complète (FR-OIQA), utilisent des infos de l'image originale pour calculer des scores de qualité. Cependant, ils sont limités car ils ont besoin d'accéder à cette image originale. D'un autre côté, les méthodes OIQA sans référence (NR-OIQA) sont plus flexibles et peuvent être appliquées lorsque l'image originale n'est pas disponible.

L'importance des caractéristiques locales et globales

Un élément clé d'une évaluation efficace de la qualité des images est de comprendre à la fois les caractéristiques locales et globales de l'image. Les caractéristiques locales viennent des parties de l'image vues de près, tandis que les caractéristiques globales prennent en compte toute la scène. En évaluant ces deux types de caractéristiques, on peut mieux appréhender comment une image sera perçue par un spectateur.

Quand les humains regardent une image omnidirectionnelle à travers un casque de RV, ils ne voient pas toute la scène d'un coup. Ils se concentrent plutôt sur différentes parties et créent une impression générale en fonction de leurs observations. Cette approche est cruciale pour rendre l'évaluation aussi naturelle et précise que possible.

Méthode proposée pour l'évaluation de la qualité

La méthode proposée introduit un nouveau cadre pour évaluer la qualité des images omnidirectionnelles qui s'appuie à la fois sur des statistiques locales et des sémantiques globales. En collectant des informations provenant de différentes parties de l'image et en les combinant avec une vue plus large, la méthode peut fournir des évaluations de qualité fiables.

Dans cette méthode, d'abord, l'image omnidirectionnelle déformée est décomposée en sections plus petites appelées "viewports". Chaque viewport est analysé séparément pour capturer des détails spécifiques qui peuvent influencer la qualité perçue. Ensuite, on construit des couches d'information à partir de ces viewports pour représenter à la fois les détails fins et le contexte plus large de l'image.

Processus d'extraction des caractéristiques

Pour extraire des infos utiles des viewports, une représentation pyramidale est créée. Ce processus implique plusieurs couches, où les couches inférieures fournissent des informations générales et les couches supérieures offrent des insights plus détaillés. Les statistiques de ces couches sont essentielles pour former une compréhension complète de la qualité de l'image.

En utilisant des motifs binaires locaux (LBP), qui sont des façons simples mais efficaces de capturer les textures d'image, on résume l'information recueillie à partir des pyramides gaussiennes et laplaciennes construites à partir des viewports. Cela donne un ensemble de caractéristiques numériques qui reflètent la qualité de chaque viewport.

D'un autre côté, les caractéristiques globales sont obtenues à travers un modèle de deep learning spécialisé connu sous le nom de VGGNet. Ce modèle est entraîné sur un grand ensemble de données et est spécifiquement conçu pour comprendre des motifs et des distorsions complexes d'image.

Combinaison des caractéristiques locales et globales pour l'évaluation de la qualité

Après avoir extrait les caractéristiques locales et globales, la prochaine étape consiste à les combiner pour produire un score global de qualité d'image. Cela se fait à l'aide d'une approche de régression, où les statistiques locales et les sémantiques globales contribuent au score final. La combinaison vise à refléter comment les détails locaux et la qualité globale de la scène interagissent pour influencer l'expérience du spectateur.

Évaluation expérimentale

Pour évaluer la méthode proposée, une base de données spécifique contenant des images omnidirectionnelles et des scores de qualité évalués par des humains a été utilisée. Les images de cette base de données ont été déformées à l'aide de diverses techniques d'encodage, permettant ainsi de tester la méthode en profondeur. L'objectif était de voir à quel point le modèle d'évaluation proposé pouvait prédire la qualité par rapport aux méthodes existantes.

La performance de la méthode proposée est mesurée à l'aide de plusieurs métriques. Celles-ci incluent le coefficient de corrélation de Spearman (SROCC) et le coefficient de corrélation linéaire de Pearson (PLCC). Ces deux métriques aident à établir à quel point les prédictions correspondent aux évaluations humaines.

Résultats et comparaisons

Les résultats ont montré que la méthode proposée fonctionne très bien par rapport aux modèles d'évaluation de qualité à la pointe de la technologie. Notamment, elle a montré des améliorations significatives par rapport aux modèles traditionnels qui s'appuyaient uniquement sur des méthodes de référence ou sans référence.

En évaluant différents types de distorsions, il a été constaté qu'il existe une forte relation entre la qualité de l'image et la perception de l'image par le spectateur. Par exemple, la cohérence de la reconnaissance d'objets et la clarté globale de l'image diminuaient à mesure que la distorsion augmentait.

De plus, les études d'ablation-où certaines composantes de l'évaluation sont supprimées pour observer leur impact-ont montré que les statistiques locales et les sémantiques globales étaient toutes deux précieuses. La combinaison des deux voies a donné les meilleures performances, les statistiques locales étant particulièrement critiques car elles proviennent de ce que les utilisateurs voient directement.

Insights sur la Distorsion d'image

Au fur et à mesure que l'évaluation progressait, il a été noté que différents types de distorsions avaient des effets variés sur la qualité perçue. Des méthodes d'encodage avancées comme HEVC ont conduit à des baisses moins dramatiques de la qualité d'image que les anciennes méthodes comme JPEG et AVC. Cela suggère que les nouvelles techniques de compression pourraient mieux préserver des informations visuelles critiques que les anciennes.

Conclusion

Cette nouvelle méthode d'évaluation des images omnidirectionnelles offre un avantage clair en utilisant à la fois des statistiques locales et des sémantiques globales. La recherche démontre que comprendre les deux perspectives est essentiel pour créer des prédictions de qualité précises en RV et dans d'autres technologies immersives.

À mesure que la technologie continue de se développer, les méthodes utilisées pour évaluer la qualité des images doivent s'adapter. En se concentrant sur la combinaison des caractéristiques locales et globales, on fait un pas en avant pour améliorer la qualité des expériences en RV. Des travaux futurs pourraient encore affiner cette approche, permettant des évaluations encore meilleures qui améliorent les interactions des utilisateurs avec les images dans divers environnements.

Plus d'auteurs

Articles similaires