Avanzamenti nella Creazione di Avatar Basati su Tag
Utilizzare tag per migliorare l'accuratezza nella creazione di avatar digitali.
― 7 leggere min
Indice
Creare avatar digitali spesso significa usare immagini di persone reali come riferimenti. App come Bitmoji offrono un sacco di opzioni per personalizzare gli avatar, ma generare avatar automaticamente con un Modello di machine learning può essere complicato. Questo è principalmente dovuto alle tante scelte disponibili, rendendo difficile raccogliere dati chiari per addestrare il modello.
Per affrontare questo problema, usiamo un metodo chiamato Annotazione basata su tag. Questo approccio aiuta a ottenere dati più chiari, che portano a previsioni migliori dal modello. Il nostro obiettivo è addestrare un modello per generare avatar basati su immagini umane usando tag specifici per descrivere le Caratteristiche facciali.
Sfide dell'Annotazione Tradizionale
Tradizionalmente, addestrare un modello per creare avatar comporta che Annotatori umani colleghino immagini di volti umani ai loro avatar corrispondenti. Tuttavia, questo approccio ha i suoi svantaggi. Il processo può essere poco chiaro e confuso, il che porta a vari accordi tra gli annotatori, generando dati rumorosi. Quando i dati sono rumorosi, diventano molto meno utili per il machine learning.
L'Approccio di Annotazione Basato su Tag
Proponiamo un sistema di annotazione basato su tag per creare avatar, che aiuta a ridurre il rumore nel dataset. Questo sistema usa una lista di tag rilevanti per ogni caratteristica facciale. Gli annotatori etichettano le immagini con questi tag, e il modello impara a prevedere i tag da un'immagine umana. Da queste previsioni, un algoritmo può poi trasformare i tag in un avatar.
Una sfida in questo sistema è garantire che i tag siano specifici abbastanza da rappresentare accuratamente le caratteristiche facciali. Ad esempio, i tag che descrivono la larghezza di un naso possono differire in base a opinioni personali, con alcuni annotatori che hanno opinioni diverse su cosa significhi "ampio". Lo stesso problema si presenta con gli occhi, dove piccole differenze di forma e orientamento sono cruciali per creare avatar precisi, ma possono essere difficili da definire chiaramente con i tag.
Migliorare l'Accordo dei Tag
Per migliorare l'accordo sui tag, ci concentriamo sulle metriche degli annotatori durante il processo di creazione dei tag. Creiamo e testiamo tag finché non troviamo quelli su cui gli annotatori concordano. Vengono forniti fogli di riferimento, che mostrano immagini chiare di ogni caratteristica, per aiutare a portare maggiore chiarezza al processo di tagging.
Seguiamo un design dettagliato dei tag per occhi, nasi e sopracciglia per garantire un alto livello di accordo. Anche se abbiamo addestrato un modello utilizzando i tag del naso per prevedere gli stili del naso, i risultati sono stati inconcludenti. Questo significa che non siamo riusciti a confermare se il metodo basato su tag prevede efficacemente questa caratteristica specifica.
Lavori Correlati
In ricerche correlate, l'annotazione basata su tag ha mostrato risultati positivi, specialmente per i capelli negli avatar. Gli studi hanno dimostrato che usare tag dettagliati porta a meno rumore nei dati, permettendo ai modelli di imparare meglio. Usare un dataset come Fairface, che include rappresentazioni diverse, permette di implementare questi metodi su vari avatar.
Usiamo anche il dataset Fairface nel nostro studio per garantire una buona miscela di caratteristiche facciali. Applichiamo lo stesso metodo di design dei tag come prima per trovare i migliori tag per il nostro modello. Il nostro modello rappresenta principalmente risultati attraverso i Bitmoji, concentrandosi più su caratteristiche facciali rispetto ai capelli, il che rende il nostro design dei tag più complesso.
Sfide nell'Estrazione delle Caratteristiche Geometriche
Alcuni ricercatori hanno esaminato l'uso della geometria per estrarre caratteristiche facciali, usando griglie o triangoli per definire aree su un viso. Anche se questo approccio potrebbe classificare bene le emozioni, non funzionerebbe efficacemente per distinguere le caratteristiche facciali con dataset come Fairface. La qualità dell'immagine, l'illuminazione e l'orientamento possono causare rumori significativi nelle misurazioni, rendendo l'estrazione geometrica inappropriata per questo compito.
Panoramica dei Dataset per il Viso
Ci sono diversi dataset di volti umani disponibili, inclusi quelli che hanno tag per razza e caratteristiche facciali. Alcuni studi hanno valutato la qualità di queste annotazioni, mostrando che i tag concreti funzionano meglio di quelli soggettivi. Anche se questi dataset esistenti forniscono alcuni tag utili, spesso mancano della specificità necessaria per la vasta gamma di caratteristiche presentate in Bitmoji.
Campionamento delle Immagini per il Design dei Tag
Il dataset Fairface si distingue per il nostro scopo perché ha un equilibrio di razza, genere e età. I ricercatori hanno selezionato con cura un set diversificato di 100 facce chiare da Fairface per creare tag ben definiti per le caratteristiche facciali. Per addestrare il modello, è necessario un set di immagini più grande. Per mantenere il rumore basso, le immagini che non soddisfacevano i livelli di fiducia stabiliti sono state rimosse utilizzando un modello di rilevamento facciale, risultando in un set pulito di 2.741 immagini dal campione originale di 10.000.
Finalizzazione del Design dei Tag
Per la nostra annotazione basata su tag, abbiamo impostato vari attributi per nasi, occhi e sopracciglia. I tag del naso considerano vari fattori, tra cui larghezza e stile. I tag degli occhi si concentrano su attributi come larghezza e curvatura, mentre i tag delle sopracciglia coprono densità e spessore. Definendo queste opzioni di tag utilizzando fogli di riferimento, puntiamo a ridurre al minimo la soggettività coinvolta nel tagging.
Processo di Creazione dei Tag
Abbiamo analizzato sia le immagini di Bitmoji che quelle di Fairface per trovare caratteristiche facciali con differenze significative. Catalogando i tag lungo una scala, come "piccolo", "medio" e "grande", abbiamo reso il processo di tagging più intuitivo. Ad esempio, abbiamo trovato stili di naso comuni tra gli avatar di Bitmoji e abbiamo progettato i tag del naso di conseguenza per abbinare efficacemente le caratteristiche umane.
Iterazione nel Design dei Tag
Il nostro team di ricerca ha iniziato con le definizioni iniziali dei tag e ha partecipato a sessioni per valutare e affinare i tag. Ogni sessione ha coinvolto diversi annotatori che etichettavano un lotto di immagini dal dataset Fairface. Randomizzando le selezioni delle immagini, abbiamo evitato che i ricercatori memorizzassero le immagini durante il processo di tagging.
Metriche di Annotazione per un Miglior Tagging
Creare tag chiari e descrittivi è fondamentale per migliorare l'accordo degli annotatori e ottenere dati di alta qualità. Abbiamo sviluppato uno strumento simulatore di annotazione per valutare rapidamente diversi tag, fornendo feedback immediato sulla loro efficacia. Questo simulatore aiuta i ricercatori a identificare quali tag ottengono il maggior accordo durante il processo di annotazione.
Fogli di Riferimento per Chiarezza
Per assistere i ricercatori nella comprensione delle definizioni dei tag, abbiamo creato fogli di riferimento pieni di immagini che illustrano distintamente ogni caratteristica. Alcuni fogli includevano etichette o segni per chiarire ulteriormente i tag.
Raccolta di Etichette Utilizzando Amazon Mechanical Turk
Abbiamo utilizzato Amazon Mechanical Turk per raccogliere etichette per addestrare il nostro modello. L'interfaccia utente è progettata per visualizzare le categorie di tag orizzontalmente, consentendo un facile accesso senza scorrimenti estesi. Immagini di riferimento accompagnano ogni tag, rendendo più facile per gli annotatori selezionare le opzioni corrette. Mostrando esempi accanto ai tag, puntavamo a creare un processo di tagging più obiettivo.
Addestramento del Modello di Machine Learning
Sei modelli Resnet152 sono stati addestrati usando immagini per prevedere i tag del naso. Ogni categoria di tag è stata trattata separatamente per valutare l'efficacia dell'apprendimento del modello. I modelli sono stati addestrati utilizzando una funzione di perdita cross-entropy.
Algoritmo di Conversione Bitmoji
Una volta che il modello genera efficacemente tag dalle immagini, questi tag possono poi aiutare a creare avatar Bitmoji. L'algoritmo di conversione abbina i tag con gli asset Bitmoji appropriati. Caratteristiche importanti ricevono pesi diversi per determinare il miglior abbinamento. I ricercatori hanno valutato quali tag identificano più efficacemente i vari stili di naso, contribuendo al processo di abbinamento generale.
Conclusione e Risultati
La nostra ricerca ha rilevato che, mentre abbiamo ottenuto un alto accordo tra gli annotatori per la maggior parte dei tag di nasi, occhi e sopracciglia, il modello stesso non ha performato altrettanto bene. Ci sono stati problemi di bias, poiché il modello ha faticato a prevedere efficacemente caratteristiche meno comuni. Anche con un tagging chiaro e un buon campione di immagini, le performance del modello erano limitate a causa degli squilibri nelle classi disponibili.
In sintesi, il nostro metodo di annotazione basato su tag ha mostrato potenzialità, ma rimangono diverse sfide. La complessità del tagging per caratteristiche facciali sottili e gli squilibri nelle classi influenzano notevolmente le performance del modello, evidenziando la necessità di un continuo affinamento nel processo di design dei tag.
Titolo: Tag-Based Annotation for Avatar Face Creation
Estratto: Currently, digital avatars can be created manually using human images as reference. Systems such as Bitmoji are excellent producers of detailed avatar designs, with hundreds of choices for customization. A supervised learning model could be trained to generate avatars automatically, but the hundreds of possible options create difficulty in securing non-noisy data to train a model. As a solution, we train a model to produce avatars from human images using tag-based annotations. This method provides better annotator agreement, leading to less noisy data and higher quality model predictions. Our contribution is an application of tag-based annotation to train a model for avatar face creation. We design tags for 3 different facial facial features offered by Bitmoji, and train a model using tag-based annotation to predict the nose.
Autori: An Ngo, Daniel Phelps, Derrick Lai, Thanyared Wong, Lucas Mathias, Anish Shivamurthy, Mustafa Ajmal, Minghao Liu, James Davis
Ultimo aggiornamento: 2023-08-24 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.12642
Fonte PDF: https://arxiv.org/pdf/2308.12642
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.