Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

FACEMORPHIC: Fortschrittliche Gesichtsemotionserkennung

Ein neuer Datensatz kombiniert RGB- und Eventkamera-Daten für eine bessere Gesichtsanalys.

― 8 min Lesedauer


FACEMORPHIC Datensatz zurFACEMORPHIC Datensatz zurGesichtsanalyseGesichtsausdrücken.Emotionserkennung ausNeuer Datensatz verbessert die
Inhaltsverzeichnis

In der heutigen Welt ist es wichtig, menschliche Emotionen durch Gesichtsausdrücke zu verstehen, und das hat viele Anwendungen. Diese reichen von einfacher Gesichtserkennung bis hin zu komplizierteren Aufgaben wie der Erkennung von Emotionen oder der Erstellung von 3D-Modellen von Gesichtern. Traditionelle Methoden setzen oft auf RGB-Kameras, die Farbbilder erfassen und Details über die Gesichtszüge, Handlungen und Emotionen einer Person anhand von Veränderungen im Ausdruck liefern. Allerdings haben diese Kameras Schwierigkeiten, sehr kleine oder schnelle Bewegungen – sogenannte Mikrobewegungen – zu erfassen, die entscheidend sind, um echte Emotionen zu bestimmen.

Um dieses Problem anzugehen, schauen sich Forscher zunehmend eine neue Art von Kamera an, die Event-Kameras genannt werden. Im Gegensatz zu RGB-Kameras erkennen Event-Kameras Lichtveränderungen viel schneller, was bedeutet, dass sie subtile Gesichtsbewegungen besser erfassen können. Aber da gibt's eine Herausforderung: Das Wissen, das man aus der Arbeit mit RGB-Kameras gewonnen hat, lässt sich nicht leicht auf Daten von Event-Kameras anwenden, weil die auf unterschiedliche Weise arbeiten.

Ein grosses Problem ist der Mangel an beschrifteten Daten, um Modelle zu trainieren, die Daten von Event-Kameras analysieren. Solche beschrifteten Daten zu sammeln, ist besonders schwierig, denn im Gegensatz zu RGB-Bildern, die man aus dem Internet sammeln kann, müssen Event-Daten speziell aufgezeichnet werden. Ausserdem ist das Beschriften von Event-Daten knifflig, weil man Faktoren wie die Geschwindigkeit, mit der Ereignisse auftreten, und welche Teile des Bildes statisch sind, berücksichtigen muss.

Dieses Papier stellt einen neuen Datensatz namens FACEMORPHIC vor, der RGB-Videos und Event-Streams von Gesichtern kombiniert. Dieser Datensatz hilft Forschern, Modelle zu trainieren, ohne jedes Video manuell beschriften zu müssen. Stattdessen nutzt er kreuzmodale Überwachung, die die Stärken von RGB- und Event-Daten nutzt, um die Gesichtsanalysen zu verbessern.

Die Bedeutung der Gesichtsanalyse

Gesichter zu interpretieren ist für zahlreiche Anwendungen entscheidend. Dazu gehören grundlegende Aufgaben wie die Gesichtserkennung, aber auch kompliziertere wie die Emotionserkennung oder das Modellieren 3D-Gesichtsformen. Die Bedeutung des Verständnisses von Gesichtsausdrücken hat zu umfangreicher Forschung in diesem Bereich geführt. Forscher haben verschiedene annotierte Datensätze und Open-Source-Software entwickelt, die als Bausteine für Gesichtsanalysen dienen. Beispiele sind Gesichtserkennung, Landmarkenidentifikation und Blickschätzungswerkzeuge.

Jedoch ist es herausfordernd, ein detailliertes Verständnis eines Gesichts zu erlangen. Gesichter machen ständig winzige Bewegungen durch Muskelaktivierungen, die sehr plötzlich auftreten können. Diese kleinen Bewegungen, bekannt als Action Units, wurden umfangreich untersucht, weil sie mit Emotionen in Verbindung stehen. Zum Beispiel kartiert das Facial Action Coding System (FACS) diese Action Units den entsprechenden Emotionen zu.

Herausforderungen entstehen, weil diese kleinen Ausdrücke oft nur etwa 80 Millisekunden dauern. Solche schnellen Bewegungen mit standardmässigen RGB-Kameras zu erfassen, kann schwierig sein, insbesondere da sie oft mit Bildraten von 25 oder 30 Bildern pro Sekunde (FPS) arbeiten. Im Gegensatz dazu könnten Hochgeschwindigkeitskameras verwendet werden, um feine Details zu erfassen, benötigen jedoch die Verarbeitung riesiger Datenmengen.

Dieses Papier schlägt vor, neuromorphe Visionssysteme zu nutzen, die Event-Kameras einschliessen. Diese Geräte erzeugen einen kontinuierlichen Datenstrom, indem sie Änderungen in der Beleuchtung erkennen, anstatt feste Bilder wie RGB-Kameras zu erfassen. Sie sind von biologischen Visionssystemen inspiriert und können in Echtzeit auf Lichtveränderungen reagieren.

Event-Kameras sind besonders attraktiv für die Gesichtsanalyse, da sie Bewegungen ohne Unschärfe erfassen und mit sehr hohen Geschwindigkeiten arbeiten können. Obwohl sie in Bereichen wie Robotik und Objekterkennung vorteilhaft waren, ist ihre Anwendung in der Gesichtsanalyse noch im Entstehen. Da sich die meisten bestehenden Forschungen auf traditionelle RGB-Bilder und -Modelle konzentriert haben, gibt es noch eine Wissenslücke, wie man Gesichter effektiv mit Event-Kamera-Daten analysiert.

Der Bedarf an beschrifteten Daten

Eine grosse Herausforderung bei der Analyse von Gesichtsausdrücken mit Event-Kameras ist der Mangel an beschrifteten Daten. Beschriftete Datensätze sind entscheidend, um Modelle für spezifische Aufgaben zu trainieren. Leider sind nur wenige Datensätze verfügbar, die sich speziell auf die durch Event-Kameras erfassten Gesichtsdynamiken konzentrieren. Das Sammeln von Daten im Event-Bereich ist zudem schwieriger, da sie nicht einfach aus dem Internet wie RGB-Daten geerntet werden können.

Um den Bedarf an beschrifteten Event-Daten zu decken, haben Forscher experimentiert, RGB-Videos in Event-Streams mithilfe von Simulationen umzuwandeln. Dieser Prozess kann jedoch langsam sein und die resultierenden Daten könnten aufgrund von Kompressionsartefakten ungenau sein, während schnelle Bewegungen, die in RGB-Datensätzen zu sehen sind, möglicherweise nicht gut in Event-Streams übersetzt werden können.

Um diese Herausforderungen zu meistern, haben die Autoren dieses Papiers den FACEMORPHIC-Datensatz gesammelt. Dieser Datensatz umfasst Aufzeichnungen von Teilnehmern, die verschiedene Gesichtsausdrucks-Action-Units ausführen, die gleichzeitig mit RGB-Kameras und Event-Kameras aufgezeichnet werden. Durch die Synchronisierung dieser beiden Datentypen können Forscher beschriftete Daten aus dem RGB-Stream ableiten und somit die Kluft zwischen den beiden Modalitäten überbrücken.

Überblick über den FACEMORPHIC-Datensatz

Der FACEMORPHIC-Datensatz ist der erste seiner Art und bietet zeitlich synchronisierte RGB- und Event-Kameraaufnahmen zur Klassifizierung von Gesichtsausdrucks-Action-Units. Der Datensammlungsprozess umfasste die Verwendung einer Standard-RGB-Kamera zusammen mit einem neuromorphen Sensor. Während der Aufzeichnungssitzungen wurden die Teilnehmer gebeten, eine Reihe spezifischer Gesichtsausdrücke auszuführen und gleichzeitig an lässigen Interaktionen teilzunehmen.

Der Datensatz besteht aus 3148 Videos mit über 4 Stunden Filmmaterial. Darin sind Aufzeichnungen von 64 Teilnehmern aus verschiedenen Altersgruppen enthalten. Jedes Video erfasst 24 Action Units, die spezifische Gesichtsausdrücke sowie Kopfbewegungen umfassen. Diese Action Units wurden sorgfältig aus etablierten Gesichtscodierungssystemen ausgewählt, um ihre Relevanz für bestehende Forschungen sicherzustellen.

Das einzigartige Merkmal dieses Datensatzes ist die zeitliche Synchronisation, die es Forschern ermöglicht, Annotationen von RGB-Aufnahmen automatisch auf Event-Daten zu übertragen. Das minimiert den manuellen Aufwand für die Beschriftung und ermöglicht einen effizienteren Trainingsprozess.

Kreuzmodale Überwachung

Kreuzmodale Überwachung bezieht sich auf eine Methode, bei der Daten aus einer Quellart verwendet werden, um Modelle für eine andere Quellart zu trainieren. Für den FACEMORPHIC-Datensatz bedeutet das, RGB-Daten zu nutzen, um die Lernprozesse für die Event-Datenanalyse zu verbessern.

Beim Verarbeiten der RGB-Bilder können Forscher 3D-Gesichtszugkoeffizienten mit einem statistischen Modell namens 3D Morphable Model extrahieren. Dieser Prozess hilft, die Darstellung des Gesichts anzuheben, sodass das Modell die Gesichtszüge analysieren kann, ohne von der Kameraperspektive beeinflusst zu werden. Mit den RGB-Bildern, die detaillierte Informationen über Gesichtsformen bieten, wird es möglich, die eventbasierten Modelle effektiver zu trainieren.

Die Methode der kreuzmodalen Überwachung kann mit einem Lehrprozess verglichen werden, in dem ein gut trainiertes Modell das Training eines anderen Modells leitet. Hier unterstützt die aus der RGB-Kamera abgeleitete Daten das eventbasierte Modell dabei, die Gesichtsausdruck-Action-Units zu erkennen.

Klassifizierung der Action Units

Um Action Units aus Event-Kameraaufnahmen zu klassifizieren, müssen Modelle die zeitlichen Aspekte der Daten verarbeiten. Hier kommt der Ansatz des Multi-Task-Lernens ins Spiel. Das vorgeschlagene Modell minimiert während des Trainings zwei separate Verlustformen: einen zur Klassifizierung des gesamten Videos und einen zur Vorhersage der Gesichtsform in jedem Frame.

Für die Klassifizierungsaufgabe wird eine Verlustfunktion verwendet, die darauf abzielt, die Wahrscheinlichkeit jeder Action Unit zu bestimmen. Für die Regressionsaufgabe wird eine andere Funktion genutzt, um zu messen, wie gut die vorhergesagte Gesichtsform mit den tatsächlichen Ereignissen übereinstimmt. Dieser duale Verlustansatz ermöglicht es dem Modell, sowohl den breiteren Kontext des Videos als auch die feinen Details der Gesichtsdynamik zu lernen.

Drei verschiedene Architekturen wurden getestet: eine Kombination aus ResNet18 mit LSTM, ResNet18 mit Transformern und ein vollständiger 3D-Ansatz mit Inception. Während dieser Tests wurde deutlich, dass die mit Event-Kamera-Daten trainierten Modelle bessere Ergebnisse erzielten als die, die ausschliesslich mit RGB-Daten trainiert wurden.

Ergebnisse und Erkenntnisse

Nach Durchführung dieser Experimente bestätigten die Ergebnisse, dass die auf Event-Daten trainierten Modelle tatsächlich effektiver bei der Klassifizierung von Action Units waren als die, die RGB-Daten verwendeten. Sie erzielten nicht nur eine bessere Genauigkeit, sondern die eventbasierten Modelle konnten sich auch auf die bedeutendsten Bewegungen in den Gesichtsausdrücken konzentrieren.

Interessanterweise hatte das ResNet18+Transformer-Modell mehr Schwierigkeiten als die anderen, aber die Event-Daten erleichterten trotzdem ein besseres Lernen im Vergleich zu den RGB-nur Modellen. Das deutet darauf hin, dass die Nutzung von Event-Kameras einen einzigartigen Vorteil in der Analyse von Gesichtsausdrücken bietet.

Eine weitere Analyse zeigte, dass die Kombination von Event-Daten mit der kreuzmodalen Verlustfunktion die Klassifizierungsergebnisse erheblich verbesserte. Die zusätzliche Überwachung durch die Regressionsaufgabe half, subtile Bewegungen effektiver zu identifizieren und bekräftigte den Wert der Einbeziehung von 3D-Rekonstruktionsinformationen in den Lernprozess.

Fazit und zukünftige Richtungen

Zusammenfassend stellt der FACEMORPHIC-Datensatz einen bedeutenden Fortschritt im Bereich der Analyse von Gesichtsausdrücken unter Verwendung von Event-Kameras dar. Durch die Nutzung der kreuzmodalen Überwachung ermöglicht der Datensatz ein besseres Training der Modelle, was zu einem tiefergehenden Verständnis der Gesichtsdynamik führt.

In Zukunft sollte die Forschung darauf abzielen, verbesserte Methoden zur Kodierung von Event-Streams zu entwickeln, da dies beeinflussen kann, wie Informationen strukturiert und verarbeitet werden. Zudem könnte das Erforschen feinerer Akkumulationszeiten für Event-Daten helfen, noch nuanciertere Gesichtsausdrücke zu erfassen, obwohl dies auch höhere Rechenressourcen erfordern könnte.

Diese Forschung hebt das Potenzial hervor, mehrere Datenquellen zu kombinieren, um die Gesichtsanalysen und das Verständnis zu verbessern. Der FACEMORPHIC-Datensatz wird voraussichtlich eine wertvolle Ressource für Forscher in diesem Bereich sein und weitere Fortschritte in der eventbasierten Gesichtsanalyse und Anwendungen in verschiedenen Bereichen fördern, von der Mensch-Computer-Interaktion bis hin zu Technologien zur emotionalen Erkennung.

Originalquelle

Titel: Neuromorphic Facial Analysis with Cross-Modal Supervision

Zusammenfassung: Traditional approaches for analyzing RGB frames are capable of providing a fine-grained understanding of a face from different angles by inferring emotions, poses, shapes, landmarks. However, when it comes to subtle movements standard RGB cameras might fall behind due to their latency, making it hard to detect micro-movements that carry highly informative cues to infer the true emotions of a subject. To address this issue, the usage of event cameras to analyze faces is gaining increasing interest. Nonetheless, all the expertise matured for RGB processing is not directly transferrable to neuromorphic data due to a strong domain shift and intrinsic differences in how data is represented. The lack of labeled data can be considered one of the main causes of this gap, yet gathering data is harder in the event domain since it cannot be crawled from the web and labeling frames should take into account event aggregation rates and the fact that static parts might not be visible in certain frames. In this paper, we first present FACEMORPHIC, a multimodal temporally synchronized face dataset comprising both RGB videos and event streams. The data is labeled at a video level with facial Action Units and also contains streams collected with a variety of applications in mind, ranging from 3D shape estimation to lip-reading. We then show how temporal synchronization can allow effective neuromorphic face analysis without the need to manually annotate videos: we instead leverage cross-modal supervision bridging the domain gap by representing face shapes in a 3D space.

Autoren: Federico Becattini, Luca Cultrera, Lorenzo Berlincioni, Claudio Ferrari, Andrea Leonardo, Alberto Del Bimbo

Letzte Aktualisierung: 2024-09-16 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2409.10213

Quell-PDF: https://arxiv.org/pdf/2409.10213

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel