Fortschritte bei tagbasierter Avatar-Erstellung
Tags verwenden, um die Genauigkeit der digitalen Avatar-Generierung zu verbessern.
― 7 min Lesedauer
Inhaltsverzeichnis
Digitale Avatare zu erstellen, bedeutet oft, echte menschliche Bilder als Referenzen zu nutzen. Apps wie Bitmoji bieten viele Möglichkeiten, Avatare anzupassen, aber Avatare automatisch mit einem Machine-Learning-Modell zu erstellen, kann schwierig sein. Das liegt vor allem an den vielen verfügbaren Optionen, was es schwer macht, klare Daten für das Training des Modells zu sammeln.
Um dieses Problem anzugehen, verwenden wir eine Methode namens Tag-basierte Annotation. Dieser Ansatz hilft dabei, klarere Daten zu bekommen, was zu besseren Vorhersagen vom Modell führt. Unser Ziel ist es, ein Modell zu trainieren, das Avatare auf der Basis von menschlichen Bildern generiert, indem wir spezifische Tags nutzen, um Gesichtsmerkmale zu beschreiben.
Herausforderungen bei traditionellen Annotationen
Traditionell besteht das Trainieren eines Modells für die Erstellung von Avataren darin, dass menschliche Annotatoren menschliche Gesichtsbilder mit den entsprechenden Avataren verlinken. Diese traditionelle Methode hat aber ihre Nachteile. Der Prozess kann unklar und verwirrend sein, was zu unterschiedlichen Meinungen unter den Annotatoren führt und somit zu ungenauen Daten. Wenn die Daten Rauschen enthalten, ist das für das Machine Learning viel weniger nützlich.
Der tag-basierte Annotationsansatz
Wir schlagen ein tag-basiertes Annotationssystem vor, um Avatare zu erstellen, das hilft, das Rauschen im Datensatz zu reduzieren. Dieses System nutzt eine festgelegte Liste relevanter Tags für jedes Gesichtsmerkmal. Annotatoren kennzeichnen Bilder mit diesen Tags, und das Modell lernt, Tags aus einem menschlichen Bild vorherzusagen. Aus diesen Vorhersagen kann dann ein Algorithmus die Tags in einen Avatar umwandeln.
Eine Herausforderung in diesem System ist sicherzustellen, dass die Tags spezifisch genug sind, um die Gesichtsmerkmale genau darzustellen. Zum Beispiel können sich Tags, die die Breite einer Nase beschreiben, je nach persönlicher Ansicht unterscheiden, wobei einige Annotatoren unterschiedliche Meinungen darüber haben, was "breit" bedeutet. Das gleiche Problem gibt es mit Augen, wo kleine Unterschiede in Form und Orientierung entscheidend sind, um genaue Avatare zu erstellen, aber schwierig klar mit Tags zu definieren.
Verbesserung der Tag-Zustimmung
Um die Tag-Zustimmung zu verbessern, konzentrieren wir uns auf die Kennzahlen der Annotatoren während des Prozesses der Tag-Erstellung. Wir erstellen und testen Tags, bis wir welche finden, über die sich die Annotatoren einig sind. Referenzblätter, die klare Bilder jedes Merkmals zeigen, werden bereitgestellt, um mehr Klarheit in den Tagging-Prozess zu bringen.
Wir durchlaufen ein detailliertes Tag-Design für Augen, Nasen und Augenbrauen, um sicherzustellen, dass wir ein hohes Mass an Übereinstimmung erreichen. Während wir ein Modell mit Nasen-Tags trainiert haben, um Nasenstile vorherzusagen, waren die Ergebnisse nicht eindeutig. Das bedeutet, wir konnten nicht bestätigen, ob die tag-basierte Methode effektiv dieses spezifische Merkmal vorhersagt.
Verwandte Arbeiten
In verwandten Forschungen hat die tag-basierte Annotation positive Ergebnisse gezeigt, besonders für Haare in Avataren. Studien haben gezeigt, dass die Verwendung detaillierter Tags zu weniger Rauschen in den Daten führt, was es den Modellen ermöglicht, besser zu lernen. Die Verwendung eines Datensatzes wie Fairface, der vielfältige Darstellungen umfasst, ermöglicht die Implementierung dieser Methoden über verschiedene Avatare hinweg.
Wir verwenden auch den Fairface-Datensatz in unserer Studie, um eine gute Mischung von Gesichtsmerkmalen sicherzustellen. Wir wenden die gleiche Tag-Design-Methode wie zuvor an, um die besten Tags für unser Modell zu finden. Unser Modell stellt die Ergebnisse hauptsächlich durch Bitmojis dar und konzentriert sich mehr auf Gesichtsmerkmale im Vergleich zu Haaren, was unser Tag-Design komplexer macht.
Herausforderungen bei der geometrischen Merkmalsextraktion
Einige Forscher haben untersucht, wie man Geometrie verwendet, um Gesichtsmerkmale zu extrahieren, indem sie Raster oder Dreiecke nutzen, um Bereiche im Gesicht zu definieren. Während dieser Ansatz Emotionen gut klassifizieren könnte, würde er nicht effektiv für die Unterscheidung von Gesichtsmerkmalen mit Datensätzen wie Fairface funktionieren. Bildqualität, Beleuchtung und Orientierung können erhebliches Rauschen in den Messungen verursachen, was die geometrische Extraktion für diese Aufgabe ungeeignet macht.
Überblick über Gesichtsdatenbanken
Es gibt mehrere Datensätze menschlicher Gesichter, einschliesslich solcher, die Tags für Rasse und Gesichtsmerkmale haben. Einige Studien haben die Qualität dieser Annotationen bewertet und gezeigt, dass konkrete Tags besser abschneiden als subjektive. Während diese bestehenden Datensätze einige nützliche Tags bieten, fehlt es oft an der Spezifität, die für die Vielzahl von Merkmalen, die in Bitmoji präsentiert werden, erforderlich ist.
Bildsamples für das Tag-Design
Der Fairface-Datensatz sticht für unseren Zweck hervor, weil er eine Balance von Rasse, Geschlecht und Alter hat. Forscher haben eine diverse Auswahl von 100 klaren Gesichtern aus Fairface sorgfältig ausgewählt, um gut definierte Tags für Gesichtsmerkmale zu erstellen. Zum Trainieren des Modells wird ein grösserer Bildsatz benötigt. Um das Rauschen niedrig zu halten, wurden Bilder, die nicht den festgelegten Konfidenzniveaus entsprachen, mithilfe eines Gesichtserkennungsmodells entfernt, wodurch ein sauberer Satz von 2.741 Bildern aus dem ursprünglichen Sample von 10.000 entstand.
Abschluss des Tag-Designs
Für unsere tag-basierte Annotation haben wir verschiedene Attribute für Nasen, Augen und Augenbrauen festgelegt. Nasen-Tags berücksichtigen verschiedene Faktoren, einschliesslich Breite und Stil. Augen-Tags konzentrieren sich auf Attribute wie Breite und Krümmung, während Augenbrauen-Tags Dichte und Dicke abdecken. Durch die Darstellung dieser Tag-Optionen mithilfe von Referenzblättern möchten wir die Subjektivität beim Tagging minimieren.
Tag-Erstellungsprozess
Wir haben sowohl Bitmoji- als auch Fairface-Bilder analysiert, um Gesichtsmerkmale mit signifikanten Unterschieden zu finden. Indem wir Tags entlang einer Skala wie "klein", "mittel" und "gross" kategorisieren, machen wir den Tagging-Prozess intuitiver. Zum Beispiel haben wir gängige Nasenstile unter Bitmoji-Avataren gefunden und entsprechend Nasen-Tags entworfen, um menschliche Merkmale effektiv zu matchen.
Designiteration in der Tag-Entwicklung
Unser Forschungsteam begann mit anfänglichen Tag-Definitionen und nahm an Sitzungen teil, um die Tags zu bewerten und zu verfeinern. Jede Sitzung beinhaltete mehrere Annotatoren, die eine Gruppe von Bildern aus dem Fairface-Datensatz taggten. Durch die Randomisierung der Bildauswahlen haben wir verhindert, dass Forscher die Bilder während des Tagging-Prozesses auswendig lernen.
Metriken für bessere Annotation
Klare und beschreibende Tags zu erstellen, ist entscheidend für die Verbesserung der Zustimmung der Annotatoren und das Erlangen hochwertiger Daten. Wir haben ein Annotation-Simulator-Tool entwickelt, um unterschiedliche Tags schnell zu bewerten und sofortiges Feedback zu ihrer Effektivität zu geben. Dieser Simulator hilft Forschern herauszufinden, welche Tags während des Annotation-Prozesses die grösste Zustimmung erhalten.
Referenzblätter für Klarheit
Um Forschern zu helfen, die Tag-Definitionen zu verstehen, haben wir Referenzblätter erstellt, die mit Bildern gefüllt sind, die jedes Merkmal deutlich illustrieren. Einige Blätter enthalten Beschriftungen oder Markierungen, um die Tags weiter zu klären.
Labels sammeln mit Amazon Mechanical Turk
Wir haben Amazon Mechanical Turk genutzt, um Labels für das Training unseres Modells zu sammeln. Die Benutzeroberfläche ist so gestaltet, dass sie die Tag-Kategorien horizontal anzeigt, was einen einfachen Zugriff ohne umfangreiches Scrollen ermöglicht. Referenzbilder begleiten jeden Tag, was es den Annotatoren erleichtert, die richtigen Optionen auszuwählen. Indem wir Beispiele neben Tags anzeigen, möchten wir einen objektiveren Tagging-Prozess schaffen.
Training des Machine Learning Modells
Sechs Resnet152-Modelle wurden trainiert, um anhand von Bildern Nasen-Tags vorherzusagen. Jede Tag-Kategorie wurde separat behandelt, um die Lernwirksamkeit des Modells zu bewerten. Die Modelle wurden unter Verwendung einer Kreuzentropie-Verlustfunktion trainiert.
Bitmoji-Konversionsalgorithmus
Sobald das Modell effektiv Tags aus Bildern generiert, können diese Tags dann dazu beitragen, Bitmoji-Avatare zu erstellen. Der Konversionsalgorithmus verknüpft Tags mit den entsprechenden Bitmoji-Assets. Wichtige Merkmale erhalten unterschiedliche Gewichte, um die beste Übereinstimmung zu bestimmen. Forscher haben bewertet, welche Tags am effektivsten verschiedene Nasenstile identifizieren, was zum gesamten Matching-Prozess beiträgt.
Fazit und Ergebnisse
Unsere Forschung hat ergeben, dass wir zwar eine hohe Zustimmung unter den Annotatoren für die meisten Nasen-, Augen- und Augenbrauen-Tags erreicht haben, das Modell selbst jedoch nicht so gut abschnitt. Es gab Probleme mit Verzerrungen, da das Modell Schwierigkeiten hatte, weniger gängige Merkmale effektiv vorherzusagen. Selbst mit klarer Tagging und einer guten Bildprobe war die Leistung des Modells aufgrund von Ungleichgewichten in den verfügbaren Klassen eingeschränkt.
Zusammenfassend hat unsere tag-basierte Annotationsmethode vielversprechende Ergebnisse gezeigt, aber es bleiben mehrere Herausforderungen. Die Komplexität des Tagging für subtile Gesichtsmerkmale und Klassenungleichgewichte haben grossen Einfluss auf die Modellleistung, was die Notwendigkeit einer weiteren Verfeinerung im Tag-Design-Prozess hervorhebt.
Titel: Tag-Based Annotation for Avatar Face Creation
Zusammenfassung: Currently, digital avatars can be created manually using human images as reference. Systems such as Bitmoji are excellent producers of detailed avatar designs, with hundreds of choices for customization. A supervised learning model could be trained to generate avatars automatically, but the hundreds of possible options create difficulty in securing non-noisy data to train a model. As a solution, we train a model to produce avatars from human images using tag-based annotations. This method provides better annotator agreement, leading to less noisy data and higher quality model predictions. Our contribution is an application of tag-based annotation to train a model for avatar face creation. We design tags for 3 different facial facial features offered by Bitmoji, and train a model using tag-based annotation to predict the nose.
Autoren: An Ngo, Daniel Phelps, Derrick Lai, Thanyared Wong, Lucas Mathias, Anish Shivamurthy, Mustafa Ajmal, Minghao Liu, James Davis
Letzte Aktualisierung: 2023-08-24 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2308.12642
Quell-PDF: https://arxiv.org/pdf/2308.12642
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.