Avanzamenti nella tecnologia di scambio facciale
RobustSwap riduce la perdita di attributi nel face swapping per un realismo migliore.
― 6 leggere min
Indice
Il face swapping è una tecnologia che ci permette di prendere le caratteristiche facciali di una persona e metterle su un'altra persona in un'immagine. Questa tecnica ha tanti usi, come creare avatar virtuali, effetti nei film e altro ancora. Tuttavia, una grande sfida nel face swapping è mantenere intatte le caratteristiche della persona target mentre si riflette accuratamente l'Identità della persona sorgente. Non si tratta solo di scambiare volti, ma di assicurarsi che la nuova immagine sembri naturale e abbia un senso.
Le metodologie attuali presentano alcuni problemi quando si parla di "attribuzione che trapela". Questo significa che a volte le caratteristiche dell'immagine sorgente si infilano nell'immagine target, causando cambiamenti indesiderati. Ad esempio, se una persona con gli occhiali viene usata come sorgente, il volto target potrebbe sembrare avere gli occhiali, anche se non dovrebbe. Il nostro lavoro si propone di affrontare questo problema mentre creiamo immagini e video di alta qualità da face swap.
Problemi Attuali nel Face Swapping
Il face swapping solitamente si concentra su due parti: l'identità dell'immagine sorgente e gli attributi dell'immagine target. L'identità si riferisce a caratteristiche come la struttura del viso, occhi, naso e bocca. Gli attributi includono cose come il colore dei capelli, l'espressione, lo sfondo e l'illuminazione. Bilanciare questi due elementi è complicato. Se fatto male, gli attributi dalla sorgente possono trapelare nell'immagine target, rovinando l'effetto.
I metodi precedenti spesso necessitavano di set di dati specifici etichettati, il che limitava il loro uso. Ottenere un gran numero di immagini di alta qualità con etichette può essere difficile. Anche quando riuscivano a ottenere i dati necessari, questi metodi dovevano spesso regolare molte impostazioni (iperparametri) per funzionare correttamente.
I metodi di face swapping più recenti si basano anche su un sistema conosciuto come StyleGAN. Questa procedura è brava a creare immagini, ma può comunque avere problemi a preservare gli attributi della target. I modelli passati non hanno sempre dato i migliori risultati quando si trattava di mantenere attributi come il tono della pelle, lo stile dei capelli o l'espressione facciale dell'immagine target, portando a quello che chiamiamo "trapela dell'aspetto".
Il Nostro Approccio
Per affrontare queste sfide, abbiamo progettato un modello di face swapping chiamato RobustSwap. Questo modello ci consente di mescolare le identità facciali dall'immagine sorgente nell'immagine target mantenendo intatte le caratteristiche della target. Abbiamo raggiunto questo obiettivo esaminando i meccanismi interni di StyleGAN e scoprendo quali impostazioni funzionano meglio per il face swapping. Il nostro modello si distingue perché è stato creato per evitare le comuni insidie dei metodi precedenti.
Una parte fondamentale del nostro metodo prevede l'uso di Modelli Morfabili 3D (3DMM). Questi modelli ci aiutano a catturare dettagli sulle forme e espressioni facciali. Combinando i dati dalle immagini sorgente e target, creiamo un'immagine ben bilanciata che mostra l'identità sorgente ma rispetta gli attributi della target. Questa combinazione aiuta a prevenire la fuga di caratteristiche indesiderate dall'immagine sorgente.
Metodologia
Analizzando lo Spazio Latente di StyleGAN
StyleGAN è uno strumento potente per generare immagini. Ha una struttura che consente di scomporre le immagini in parti e manipolarle efficacemente. Abbiamo preso tempo per analizzare lo spazio latente di StyleGAN, che è essenzialmente una collezione di tutti i modi possibili di disporre e cambiare le caratteristiche in un'immagine. Questa analisi ci aiuta a capire come combinare al meglio le caratteristiche delle due immagini minimizzando la Fuga di Attributi.
Abbiamo scoperto che usare combinazioni specifiche di vettori latenti in StyleGAN ci permetteva di minimizzare l'influenza involontaria dell'immagine sorgente. Sperimentando con diverse combinazioni, siamo riusciti a trovare un equilibrio che mantenesse gli attributi della target mentre rifletteva ancora l'identità della sorgente.
Utilizzando Modelli Morfabili 3D
Per mantenere meglio l'integrità strutturale dei volti con cui stavamo lavorando, abbiamo incorporato i 3DMM. Questo modello fornisce informazioni dettagliate sulla struttura facciale, permettendoci di usarlo per iniettare dettagli di forma precisi dall'immagine sorgente mantenendo la posa della target. Questo aspetto è cruciale perché significa che possiamo creare immagini che non solo sono visivamente attraenti, ma mantengono anche espressioni e angoli facciali realistici.
Abbiamo utilizzato queste informazioni insieme a un nuovo metodo che abbiamo sviluppato chiamato perdita di landmark parziale, che si concentra su un set specifico di punti sul viso. Facendo così, assicuriamo che il modello presti attenzione a caratteristiche importanti mantenendo comunque l'aspetto generale dell'immagine target.
Risultati
Qualità dell'Immagine
Il nostro modello è stato testato contro diversi metodi di face swapping esistenti. Ci siamo concentrati nel misurare quanto bene il nostro modello preservasse sia l'identità che gli attributi delle immagini. I risultati hanno mostrato che RobustSwap forniva un output superiore, con immagini più chiare e meno perdite di caratteristiche indesiderate dalla sorgente.
Nei nostri esempi, era chiaro che RobustSwap manteneva i toni della pelle, le espressioni facciali e le pose delle immagini target molto meglio rispetto ai modelli precedenti. Questo era particolarmente evidente confrontando come gli occhi, la bocca e altre caratteristiche si allineavano con l'immagine target originale.
Qualità del Video
Un altro aspetto significativo del nostro lavoro è stato testare le capacità del modello con i video. Creare effetti video senza soluzione di continuità richiede più che buone immagini fisse; richiede coerenza tra i fotogrammi. Anche qui, il nostro modello ha brillato. Anche senza essere addestrato specificamente su dati video, RobustSwap poteva produrre video di alta qualità che sembravano naturali e coerenti.
I test hanno mostrato che il nostro modello poteva gestire efficacemente le transizioni tra i fotogrammi senza perdere l'identità o gli attributi della target. Questo è stato un notevole miglioramento rispetto ai modelli precedenti, che spesso lottavano per mantenere un aspetto coerente da un fotogramma all'altro.
Feedback degli Utenti
Per assicurarci che il nostro modello soddisfacesse le esigenze degli utenti reali, abbiamo condotto sondaggi e raccolto feedback da partecipanti che hanno visto immagini e video scambiati. Sono stati chiesti di valutare vari elementi, come quanto bene si abbinasse l'identità, quanto naturale sembrava l'immagine e la qualità complessiva.
I nostri risultati hanno mostrato che gli utenti hanno valutato RobustSwap molto positivamente. Molti partecipanti hanno notato che le immagini sembravano più credibili e le transizioni nei video erano più fluide rispetto agli altri modelli.
Conclusione
Il face swapping è un campo entusiasmante che ha molti potenziali utilizzi, ma presenta anche le sue sfide. Attraverso un'attenta analisi dell'architettura di StyleGAN e tecniche innovative come i 3DMM, abbiamo sviluppato RobustSwap, un modello di face swapping che risolve efficacemente il problema della fuga di attributi.
Il nostro modello consente una fusione senza soluzione di continuità delle identità, assicurando che le caratteristiche target rimangano intatte. Con risultati positivi sia da immagini che da video, RobustSwap si distingue nel settore, promettendo di migliorare la qualità del face swapping in varie applicazioni. Futuri ricercatori possono costruire su questo lavoro, esplorando nuove metodologie e tecniche per tecnologie di face swapping ancora migliori.
Concentrandoci sul bilanciamento tra la preservazione dell'identità e degli attributi, abilitiamo un nuovo standard per la qualità e il realismo del face swapping, garantendo un aspetto naturale in tutti i tipi di media.
Titolo: RobustSwap: A Simple yet Robust Face Swapping Model against Attribute Leakage
Estratto: Face swapping aims at injecting a source image's identity (i.e., facial features) into a target image, while strictly preserving the target's attributes, which are irrelevant to identity. However, we observed that previous approaches still suffer from source attribute leakage, where the source image's attributes interfere with the target image's. In this paper, we analyze the latent space of StyleGAN and find the adequate combination of the latents geared for face swapping task. Based on the findings, we develop a simple yet robust face swapping model, RobustSwap, which is resistant to the potential source attribute leakage. Moreover, we exploit the coordination of 3DMM's implicit and explicit information as a guidance to incorporate the structure of the source image and the precise pose of the target image. Despite our method solely utilizing an image dataset without identity labels for training, our model has the capability to generate high-fidelity and temporally consistent videos. Through extensive qualitative and quantitative evaluations, we demonstrate that our method shows significant improvements compared with the previous face swapping models in synthesizing both images and videos. Project page is available at https://robustswap.github.io/
Autori: Jaeseong Lee, Taewoo Kim, Sunghyun Park, Younggun Lee, Jaegul Choo
Ultimo aggiornamento: 2023-03-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.15768
Fonte PDF: https://arxiv.org/pdf/2303.15768
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.