Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Graphisme

Nouvelle méthode pour créer des vues de rue réalistes

Présentation d'une méthode pour créer des vues de rue de haute qualité sur de longues distances.

― 7 min lire


Méthode des vues de rueMéthode des vues de rueréalistes révéléeefficace.urbains de haute qualité de manièreUn nouveau système génère des visuels
Table des matières

Ces dernières années, il y a eu un intérêt croissant pour la création de contenu visuel détaillé comme des images, des vidéos et des modèles 3D. Cependant, produire des résultats réalistes qui couvrent de grandes zones, comme des scènes urbaines, reste un défi. Les méthodes existantes ont du mal à réaliser de longues vidéos ou à représenter des villes entières. Cet article discute d'une nouvelle approche qui vise à créer des vues de rue réalistes pouvant s'étendre sur de longues distances, tout en maintenant une qualité visuelle élevée.

Aperçu de la Méthode

La nouvelle méthode génère de longues séquences de vues de rue à partir d'entrées textuelles, comme le nom d'une ville ou les conditions météorologiques, et d'une carte sous-jacente qui trace le chemin désiré. Contrairement aux modèles développés précédemment, cette méthode permet de longs mouvements de caméra couvrant plusieurs pâtés de maisons sans perdre en qualité visuelle ou en cohérence.

L'ossature de cette approche s'appuie sur des travaux antérieurs en diffusion vidéo, qui est une méthode créant des images en éliminant progressivement le bruit des entrées aléatoires. Cette méthode fonctionne efficacement dans un cadre autoregressif, permettant de générer de longues séquences sans s'éloigner du style visuel prévu.

Caractéristiques Clés

Données d'Entrée

La méthode repose sur des données de haute qualité, spécifiquement des images prises depuis Google Street View associées à des données cartographiques pertinentes. Cela permet aux utilisateurs de générer des vues de rue basées sur n'importe quelle configuration de ville. En plus, le système permet de contrôler les positions de la caméra et même d'ajuster des éléments comme la météo et l'heure de la journée.

Capacités de Sortie

Les résultats de cette méthode de génération produisent des vues de rue cohérentes le long des chemins planifiés tout en étant influencées par les données cartographiques. Le système peut créer des vues de rue de haute qualité qui reflètent divers styles géographiques et peuvent s'adapter à différentes conditions météorologiques.

Défis de Génération

Il y a plusieurs défis à relever lors de la génération de contenus à cette échelle :

  1. Contrôle des Entrées : Bien que le texte soit couramment utilisé pour créer des sorties visuelles, ce n'est pas très efficace pour contrôler les détails à l'échelle urbaine. Donc, cette méthode utilise une combinaison de cartes de rue et de cartes de hauteur pour assurer une génération précise.

  2. Cohérence des Sorties : Générer des résultats qui maintiennent la cohérence visuelle est crucial. Ce système contrecarre les problèmes courants de génération vidéo en conditionnant chaque image sur la configuration de la scène, garantissant ainsi la continuité des images générées.

  3. Qualité des données d'entraînement : La méthode nécessite de grandes quantités de données pour un entraînement efficace. Heureusement, Google Street View fournit un riche jeu de données présentant de nombreuses séquences de vues de rue avec des configurations de scène pertinentes. Cependant, certaines données ne sont pas parfaitement alignées, ce qui peut poser des problèmes lors de la génération.

Résultats et Applications

Le nouveau système a produit des résultats impressionnants avec sa capacité à générer des vues de rue de haute qualité. Les applications clés incluent :

  1. Génération de Vues de Rue à Longue Distance : Cette tâche consiste à créer des images de toutes pièces basées uniquement sur la configuration de scène désirée et le chemin de la caméra. Les images générées sont comparées à des modèles existants, montrant une qualité et une cohérence supérieures.

  2. Génération de Vues Perpétuelles : Dans ce cas, le système part d'une image de vue de rue connue et produit ensuite une longue séquence de nouvelles vues. Les résultats restent cohérents avec l'image initiale tout en maintenant une haute qualité.

  3. Applications Créatives : Le système ouvre des perspectives pour de nombreuses utilisations créatives, comme générer des vues de rue qui changent selon des conditions météorologiques spécifiques ou des moments de la journée. Les utilisateurs peuvent facilement entrer leurs conditions désirées et recevoir des sorties pertinentes.

Aspects Techniques du Système

Génération de Deux Cadres

Un élément crucial de ce système est la capacité de générer deux cadres consécutifs à la fois. Cette fonctionnalité s'inspire des avancées récentes dans les techniques de génération vidéo. La génération de deux cadres permet une meilleure continuité entre les images, créant ainsi une sortie vidéo plus réaliste.

Génération conditionnelle

L'utilisation de données de contrôle est vitale pour obtenir des configurations de scène précises. Les cartes et les informations de hauteur aident à guider le processus de génération, transformant des représentations abstraites en visuels cohérents. Cette méthode de génération conditionnelle ajoute de la prévisibilité aux sorties.

Synthèse Vidéo Autoregressive

Le système incorpore une méthode de synthèse vidéo autoregressive. Cette approche permet la cohérence en permettant aux cadres générés de se construire les uns sur les autres de manière séquentielle. Grâce à ce mécanisme, le système génère les cadres un par un, maintenant qualité et cohérence tout au long du processus.

Défis de Données

En utilisant des données géographiques, plusieurs difficultés surviennent :

  1. Mésalignement : Les données aériennes utilisées pour les cartes de hauteur peuvent ne pas s'aligner parfaitement avec les vues au niveau du sol. Ce mésalignement peut être dû à des erreurs dans les prises de vue aériennes et à la nature dynamique des scènes urbaines.

  2. Bruit dans les Données : Les poses de caméra réelles, dérivées de la latitude et de la longitude, peuvent ne pas être pixelement précises. Cette inexactitude pourrait entraîner des écarts qui affectent la qualité des images générées.

  3. Flou des Images : Certaines images peuvent être floues pour des raisons de confidentialité, ce qui peut limiter la quantité de données utilisables.

Perspectives de Recherche

À travers ce travail, de nouvelles techniques sont développées pour aider à générer des vues de rue plus efficacement. L'utilisation de jeux de données robustes provenant de services de cartographie joue un rôle significatif dans l'entraînement réussi du système. Les idées clés incluent la nécessité de modèles adaptables qui peuvent gérer le bruit et le mésalignement des données tout en livrant des sorties de haute qualité.

Conclusion

La méthode proposée se distingue par sa capacité à générer des vues de rue de haute qualité et cohérentes sur de longues distances. L'efficacité du système est grandement attribuée à la combinaison de données avancées et de techniques innovantes pour manipuler ces données. En surmontant de nombreux défis associés à la génération de scènes urbaines, cette méthode a le potentiel de révolutionner la façon dont nous créons du contenu visuel lié aux environnements urbains.

L'avenir de cette technologie promet de nouvelles avancées dans la génération de scènes urbaines encore plus réalistes et variées grâce à un meilleur contrôle sur les données d'entrée et une meilleure gestion du bruit lors de la génération.

Source originale

Titre: Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion

Résumé: We present a method for generating Streetscapes-long sequences of views through an on-the-fly synthesized city-scale scene. Our generation is conditioned by language input (e.g., city name, weather), as well as an underlying map/layout hosting the desired trajectory. Compared to recent models for video generation or 3D view synthesis, our method can scale to much longer-range camera trajectories, spanning several city blocks, while maintaining visual quality and consistency. To achieve this goal, we build on recent work on video diffusion, used within an autoregressive framework that can easily scale to long sequences. In particular, we introduce a new temporal imputation method that prevents our autoregressive approach from drifting from the distribution of realistic city imagery. We train our Streetscapes system on a compelling source of data-posed imagery from Google Street View, along with contextual map data-which allows users to generate city views conditioned on any desired city layout, with controllable camera poses. Please see more results at our project page at https://boyangdeng.com/streetscapes.

Auteurs: Boyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein

Dernière mise à jour: 2024-07-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.13759

Source PDF: https://arxiv.org/pdf/2407.13759

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires