Avanzamenti nelle tecniche di stilizzazione dei ritratti video
Un nuovo metodo migliora la stilizzazione dei video mantenendo le caratteristiche originali.
― 5 leggere min
Indice
La stilizzazione di ritratti video è un processo che cambia l'aspetto di un video di una persona applicando stili artistici. Questa tecnica può trasformare un volto umano normale in una versione che sembra un dipinto o un cartone animato. È molto popolare in vari settori come la pubblicità, l'animazione e i film. Anche se artisti esperti possono creare immagini stilizzate bellissime, farlo manualmente richiede tempo. Per accelerare il processo, i ricercatori hanno sviluppato metodi automatici usando tecniche informatiche avanzate chiamate reti neurali profonde.
La Sfida con i Metodi Esistenti
Molti metodi esistenti usano strumenti chiamati reti antagoniste generative (GAN) per generare stili artistici. Anche se questi metodi hanno mostrato risultati impressionanti per le immagini, hanno difficoltà quando vengono applicati ai video. Ci sono diverse ragioni per questo. Prima di tutto, molti metodi basati su immagini si basano su punti specifici del volto (come occhi e bocca) per guidare la traduzione. Questo può portare a movimenti innaturali nel video perché i punti del volto devono rimanere fissi, il che non funziona bene in movimento. In secondo luogo, quando si usano le GAN, possono andare persi dettagli importanti. Ad esempio, lievi movimenti del viso come un sorriso o un battito di ciglia potrebbero non essere catturati bene, portando a un risultato che non somiglia alla persona originale. Infine, le tecniche attuali non considerano il flusso del tempo quando creano video, rendendo difficile produrre movimenti fluidi e coerenti.
Un Nuovo Approccio
Per affrontare questi problemi, è stato proposto un nuovo framework di stilizzazione video in due fasi. Questo framework funziona in due passaggi: il primo si concentra sulla traduzione dell'immagine, e il secondo riguarda la generazione di un video da quell'immagine.
Fase Uno: Traduzione dell'Immagine
Nella prima fase, l'obiettivo è prendere un'immagine dal dominio originale (la sorgente) e convertirla in una versione stilizzata (il target) senza perdere dettagli importanti. Per farlo, viene addestrata una rete che gestisce la traduzione direttamente, evitando la necessità di mappare le immagini in uno stato nascosto chiamato spazio latente. Questo aiuta a preservare di più il contesto dell'immagine originale.
Due reti vengono addestrate contemporaneamente. La prima è un generatore che crea immagini stilizzate, mentre la seconda traduce le immagini di input per essere vicine a ciò che produce il generatore. Questo crea un dataset di addestramento virtuale di immagini reali e stilizzate, che aiuta a migliorare il processo di traduzione.
Fase Due: Generazione dei Frame del Video
Una volta che la rete di traduzione delle immagini è pronta, la seconda fase utilizza questa rete per creare un video. Questa fase è progettata per garantire che i frame del video generato fluiscano naturalmente da uno all'altro. Per ottenere ciò, viene introdotto un nuovo componente chiamato raffinatore sequenziale, che considera più frame contemporaneamente per garantire coerenza e transizioni fluide.
Il raffinatore sequenziale guarda ai frame precedenti e mira a correggere eventuali problemi o distorsioni che potrebbero essersi verificati durante la fase di traduzione dell'immagine. Questo include affrontare sfocature e altri artefatti che possono diventare evidenti nelle sequenze video in movimento. Facendo ciò, il modello genera un video stilizzato che mantiene intatta l'identità originale e le caratteristiche facciali importanti.
Valutazione dei Risultati
Per valutare quanto bene funzioni questo nuovo metodo, sono stati fatti confronti con altre tecniche esistenti. Sono stati utilizzati diversi parametri per misurare quanto bene sia stata preservata l'identità e quanto fosse coerente il video. Il nuovo framework ha superato i precedenti metodi di stilizzazione di immagini e video sia in valutazioni qualitative che quantitative.
I risultati hanno mostrato che i video prodotti usando il nuovo metodo mantenevano l'identità delle persone mentre trasferivano efficacemente elementi stilistici, facendoli apparire coerenti e fluidi. Questo significa che gli spettatori possono vedere lo stile artistico applicato pur riconoscendo la persona nel video.
Preferenze degli Utenti
Oltre alle valutazioni tecniche, sono stati condotti studi sugli utenti per raccogliere feedback sui risultati. I partecipanti sono stati mostrati coppie di video generati sia dal nuovo metodo sia da tecniche precedenti. Sono stati invitati a scegliere quale video secondo loro avesse una migliore stilizzazione mantenendo l'identità della persona e quale video fosse più coerente nel tempo.
Il feedback ha indicato che la maggior parte degli utenti preferiva i video creati utilizzando il nuovo approccio. Molti hanno notato che questi video sembravano più naturali e visivamente piacevoli rispetto agli altri.
Velocità ed Efficienza
Uno dei vantaggi significativi di questo nuovo framework è la sua velocità. Il modello può elaborare ogni frame in circa 0,011 secondi, rendendolo adatto per applicazioni in tempo reale. Questo è molto più veloce rispetto ad altri framework che di solito richiedono più tempo per frame e necessitano di maggiore potenza computazionale.
Nonostante la sua velocità, il modello riesce a ottenere risultati di alta qualità mantenendo un numero ridotto di parametri, risultando così più efficiente nell'uso delle risorse.
Conclusione
Questo lavoro presenta un modo innovativo per creare video stilizzati da video di volti umani reali. Suddividendo il compito in due parti gestibili, l'approccio garantisce che lo stile artistico venga applicato mantenendo le caratteristiche essenziali del video originale. I risultati dimostrano che è possibile creare contenuti coinvolgenti e visivamente attraenti rapidamente. Questo può risultare significativamente utile in settori dove è necessario contenuto video stilizzato, consentendo una produzione più rapida e risultati di alta qualità senza compromettere l'essenza del video originale.
Titolo: Context-Preserving Two-Stage Video Domain Translation for Portrait Stylization
Estratto: Portrait stylization, which translates a real human face image into an artistically stylized image, has attracted considerable interest and many prior works have shown impressive quality in recent years. However, despite their remarkable performances in the image-level translation tasks, prior methods show unsatisfactory results when they are applied to the video domain. To address the issue, we propose a novel two-stage video translation framework with an objective function which enforces a model to generate a temporally coherent stylized video while preserving context in the source video. Furthermore, our model runs in real-time with the latency of 0.011 seconds per frame and requires only 5.6M parameters, and thus is widely applicable to practical real-world applications.
Autori: Doyeon Kim, Eunji Ko, Hyunsu Kim, Yunji Kim, Junho Kim, Dongchan Min, Junmo Kim, Sung Ju Hwang
Ultimo aggiornamento: 2023-05-30 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.19135
Fonte PDF: https://arxiv.org/pdf/2305.19135
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.