Sintesi a lungo termine da un'unica immagine
Un nuovo metodo genera nuove viste costanti nel tempo a partire da un'immagine.
― 5 leggere min
Indice
Creare nuove visuali da un'unica immagine è un compito importante per molte applicazioni, specialmente nella Realtà Virtuale. Questo compito può aiutare a creare esperienze immersive permettendo agli utenti di vedere scene da angolazioni diverse. Sfortunatamente, molti metodi attuali possono generare visuali solo all'interno di un raggio limitato di movimento, o producono risultati scarsi quando c'è un significativo movimento della camera.
In questo lavoro, presentiamo un nuovo metodo che utilizza un modello di diffusione guidato dalla posa per produrre lunghe sequenze video di nuove visuali da un'unica immagine. Utilizzando tecniche particolari per collegare diversi punti di vista, il nostro metodo crea nuove visuali coerenti e realistiche nel tempo.
Contesto
La sintesi di nuove visuali implica generare immagini da diversi punti di vista basati su un insieme di immagini posate di una scena. I recenti progressi nel deep learning hanno migliorato significativamente questi processi, consentendo di creare immagini di alta qualità da diverse posizioni della camera. Tuttavia, la maggior parte delle tecniche è limitata a un piccolo raggio di movimenti della camera.
Recentemente sono emersi nuovi metodi che affrontano la sfida della sintesi a lungo termine da un'unica immagine. Questi metodi mirano a produrre video da un'unica immagine e una serie di posizioni della camera, consentendo uscite più creative e flessibili.
Generare nuove visuali su periodi prolungati presenta due sfide significative:
- Quando la camera si sposta in una nuova posizione, potrebbe essere necessario aggiungere una quantità significativa di nuovo contenuto che non era visibile nell'immagine originale.
- Le immagini generate devono rimanere coerenti, in particolare nelle aree che sono state osservate nell'immagine originale o in visuali generate in precedenza.
Soluzioni Esistenti
Sono stati sviluppati vari approcci per affrontare il problema della sintesi visiva. Alcuni metodi si basano su strategie di "warp and refine", in cui un modello distorce l'immagine originale per adattarsi a un nuovo punto di vista prima di rifinirla usando un modello generativo. Tuttavia, questo approccio dipende spesso fortemente dall'accuratezza delle stime di profondità.
Altri metodi hanno cercato di risolvere questi problemi utilizzando modelli basati su geometria che apprendono corrispondenze tra punti immagine attraverso diverse visuali. Anche se queste tecniche mostrano potenzialità, faticano ancora a produrre risultati coerenti su movimenti più ampi della camera.
I recenti progressi nei Modelli di Diffusione hanno mostrato grande successo in una varietà di compiti di creazione di contenuti, come generazione di immagini e traduzione. Tuttavia, molti di questi metodi esistenti si concentrano esclusivamente su immagini 2D e non forniscono il controllo necessario sui punti di vista 3D.
Il Nostro Approccio
Il nostro metodo proposto utilizza un modello di diffusione migliorato con tecniche guidate dalla posa per creare risultati coerenti di sintesi visiva a lungo termine. Il nucleo di questo modello è un meccanismo di attenzione che include Linee Epipolari per aiutare a collegare le caratteristiche attraverso diversi punti di vista. In questo modo, puntiamo a produrre contenuti nuovi e realistici in regioni precedentemente invisibili, garantendo al contempo che le visuali generate siano coerenti tra loro.
Architettura del Modello
Il nostro modello utilizza un framework UNet che prende come input un'immagine e la posizione della camera per denoising e generazione della visuale target. Il livello di attenzione epipolare è un componente chiave che aiuta a relazionare le caratteristiche dall'immagine sorgente ai nuovi punti di vista.
Questo processo inizia con l'estrazione delle caratteristiche dall'immagine originale, che vengono poi combinate con le linee epipolari stimate. Il modello utilizza queste linee come vincoli per calcolare le relazioni tra diverse visuali, consentendogli di produrre risultati migliori.
Risultati
Valutiamo il nostro metodo utilizzando due dataset: immagini del mondo reale da RealEstate10K e scene generate al computer da Matterport3D. I nostri risultati mostrano l'abilità del nostro modello di generare lunghe sequenze di nuove visuali che sono sia realistiche che coerenti.
Sintesi di Visuali a Breve Termine
Nella fase di sintesi a breve termine, confrontiamo il nostro metodo con varie tecniche all'avanguardia. Il nostro approccio si distingue producendo output che sono più allineati con le visuali di input mantenendo relazioni spaziali accurate.
Sintesi di Visuali a Lungo Termine
In termini di sintesi a lungo termine, il nostro modello mostra significativi miglioramenti rispetto ai metodi esistenti. Misuriamo la qualità delle visuali generate utilizzando metriche come i punteggi FID e KID, insieme all'errore di warping del flusso per valutare la coerenza temporale. I risultati dimostrano l'abilità del nostro modello di generare sequenze che rimangono sia realistiche che coerenti durante tutta la loro durata.
Sfide e Direzioni Future
Anche se il nostro metodo funziona bene, ci sono ancora sfide da affrontare. Un problema principale è la capacità di gestire scene con scale o condizioni variabili rispetto a quelle viste durante il training. Inoltre, il processo di inferenza può richiedere tempo a causa dei passaggi coinvolti nella generazione di ogni visuale.
Il lavoro futuro si concentrerà sul miglioramento della velocità di inferenza e sull'aumento della capacità del modello di gestire una varietà più ampia di scene.
Conclusione
In sintesi, il nostro modello di diffusione guidato dalla posa offre una soluzione promettente per generare lunghe sequenze di visuali nuove da un'unica immagine. Attraverso l'uso di tecniche innovative e meccanismi di attenzione, siamo in grado di produrre risultati che sono realistici e coerenti, facendo significativi progressi nel campo della sintesi visiva per esperienze virtuali.
Questo metodo apre nuove possibilità per varie applicazioni, dal gaming alla visualizzazione architettonica, dove esperienze 3D immersive possono essere create da immagini normali.
Titolo: Consistent View Synthesis with Pose-Guided Diffusion Models
Estratto: Novel view synthesis from a single image has been a cornerstone problem for many Virtual Reality applications that provide immersive experiences. However, most existing techniques can only synthesize novel views within a limited range of camera motion or fail to generate consistent and high-quality novel views under significant camera movement. In this work, we propose a pose-guided diffusion model to generate a consistent long-term video of novel views from a single image. We design an attention layer that uses epipolar lines as constraints to facilitate the association between different viewpoints. Experimental results on synthetic and real-world datasets demonstrate the effectiveness of the proposed diffusion model against state-of-the-art transformer-based and GAN-based approaches.
Autori: Hung-Yu Tseng, Qinbo Li, Changil Kim, Suhib Alsisan, Jia-Bin Huang, Johannes Kopf
Ultimo aggiornamento: 2023-03-30 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.17598
Fonte PDF: https://arxiv.org/pdf/2303.17598
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://poseguided-diffusion.github.io
- https://github.com/richzhang/PerceptualSimilarity
- https://github.com/mseitzer/pytorch-fid
- https://github.com/GaParmar/clean-fid
- https://github.com/princeton-vl/RAFT
- https://github.com/CompVis/geometry-free-view-synthesis
- https://github.com/xrenaa/Look-Outside-Room
- https://github.com/google-research/se3ds
- https://poseguided-diffusion.github.io/