Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Fortschritte in der Analyse von gesichtlicher affektiver Verhalten

Neuer Datensatz und Modell verbessern das Verständnis von Gesichtsemotionen und -ausdrücken.

― 8 min Lesedauer


GesichtsemotionenanalyseGesichtsemotionenanalyseverbessertGesichtsausdrücken.und das Verständnis vonNeue Methoden verbessern die Erkennung
Inhaltsverzeichnis

Facial affective behavior analysis (FABA) ist wichtig, um herauszufinden, wie Leute sich fühlen, nur indem man ihre Gesichter auf Bildern anschaut. Traditionelle Methoden konzentrieren sich hauptsächlich darauf, Emotionen in Kategorien einzuteilen, aber diese Methoden erfassen nicht das volle Spektrum an Emotionen oder die komplexen Möglichkeiten, wie Leute diese durch ihre Gesichtsausdrücke ausdrücken.

Kürzlich wurden Multi-modal Large Language Models (MLLMs) erfolgreich in verschiedenen visuellen Verständnisaufgaben eingesetzt. Allerdings gibt es einige Herausforderungen, wenn man diese Modelle für FABA anwendet. Das liegt hauptsächlich an einem Mangel an Daten und Benchmarks, die speziell auf Gesichtsausdrücke abzielen, sowie an Problemen mit der Trainingseffizienz und der Notwendigkeit, Gesichtszüge zu berücksichtigen.

Um diese Probleme anzugehen, präsentieren wir mehrere wichtige Beiträge:

  1. Ein neues dataset, das auf zwei wichtige FABA-Aufgaben abzielt: das Erkennen von Gesichtsemotionen und das Identifizieren von Aktions-Einheiten (spezifische Gesichtsausdrücke).
  2. Ein Benchmarking-System namens FABA-Bench, das einen neuen Weg zur Messung bietet, wie gut Modelle Gesichtsemotionen und -aktionen erkennen und erzeugen können.
  3. Ein neues MLLM-Modell namens EmoLA, das als starkes Startmodell für andere in der Community dient.

Unser Dataset und die Benchmarks zeigen, wie Gesichtsausdrücke funktionieren, einschliesslich der subtilen Bewegungen im Gesicht, wie wir sie erklären können und die Gedanken dahinter. Um ein besseres und effizienteres MLLM für FABA zu erstellen, haben wir auch ein Modul hinzugefügt, das sich auf Wissen über die Gesichtsstruktur konzentriert, und eine Methode zur Verbesserung der Trainingseffizienz.

Wir haben viele Experimente auf FABA-Bench und vier beliebten FABA-Datensätzen durchgeführt. Die Ergebnisse zeigen, dass unser Gesichtstruktur-Experte die Leistung verbessern kann, und EmoLA hat auf FABA-Bench sehr gut abgeschnitten, indem es andere State-of-the-Art-Modelle auf gängigen Datensätzen erreicht oder sogar übertroffen hat.

Bedeutung der Facial Affective Behavior Analysis

FABA, zu dem Aufgaben wie das Erkennen von Gesichtsemotionen (FER) und das Erkennen von Aktions-Einheiten (AUR) gehören, zielt darauf ab, Gesichtsausdrücke und Bewegungen zu interpretieren. Dieses Verständnis ist entscheidend, um den emotionalen Zustand und die Absichten einer Person zu erkennen.

FABA ist ein wachsendes Feld mit vielversprechenden Anwendungen in vielen Bereichen. Zum Beispiel kann FABA in der Psychologie Therapeuten helfen, indem es Echtzeit-Einblicke in die unausgesprochenen Emotionen eines Patienten bietet, was die Therapieergebnisse verbessern kann. In Bildungseinrichtungen kann es die Lehrmethoden basierend auf den Gesichtsrücken der Schüler anpassen, um anzuzeigen, ob sie engagiert oder verwirrt sind.

Unser neues Dataset, FABA-Instruct, bietet detaillierte Beschreibungen von Emotionen und Aktions-Einheiten, die Einblicke in die Gedanken hinter den Gesichtsausdrücken geben. Im Gegensatz zu traditionellen Labels, die einschränkend sein können, erfassen unsere Beschreibungen die Komplexität von Emotionen, einschliesslich nuancierter und übertriebener Ausdrücke.

Trotz der Fortschritte verlassen sich viele bestehende FABA-Methoden auf Modelle, die Emotionen einfach in diskrete Kategorien klassifizieren. Diese Modelle erfassen oft nicht die Feinheiten von Emotionen oder bieten detaillierte Erklärungen. Zum Beispiel könnten sie die komplexen emotionalen Ausdrücke, die in Therapiesitzungen beobachtet werden, übersehen oder versäumen, den Bildungsinhalt basierend auf den Reaktionen der Schüler anzupassen. Deshalb schauen wir auf den Erfolg der aktuellen MLLMs, die in der Lage sind, feine visuelle Hinweise zu beschreiben und zu erklären, nachdem sie auf grossen Datensätzen trainiert wurden.

MLLMs wandeln die Klassifizierungsaufgabe in die Generierung von Sequenzen um, die auf dem Training mit grossen Mengen an Sprachdaten basieren. Diese Modelle haben starke Fähigkeiten in verschiedenen visuellen Aufgaben gezeigt. Allerdings gibt es Herausforderungen bei der Anwendung von MLLMs auf FABA, wie den Mangel an geeigneten Trainingsdatensätzen, die Notwendigkeit, MLLMs sorgfältig auszuwählen, und Schwierigkeiten, spezifische Gesichtszüge mit aktuellen Modellen zu extrahieren.

Um diese Herausforderungen anzugehen, haben wir das FABA-Instruct-Dataset entwickelt, das eine Vielzahl von Gesichtsbildern und feingranularen Annotations für Emotionen und Aktions-Einheiten enthält. Wir haben auch das FABA-Bench-Benchmark erstellt, um zu bewerten, wie gut verschiedene Modelle bei diesen Aufgaben abschneiden, und eine neue Bewertungsmetrik eingeführt, die sowohl die Erkennungsgenauigkeit als auch die Generierungsfähigkeit berücksichtigt.

Methodologie

Datensatzkonstruktion

Das FABA-Instruct-Dataset umfasst 19.474 Bilder, die für das Training verwendet werden, und 403 für Tests, die aus einer grossen Datenbank für Gesichtsausdrücke namens AffectNet stammen. Wir richten und zuschneiden diese Bilder, um den Fokus auf die Gesichter zu legen. Die Annotations für Emotionen und Aktions-Einheiten wurden erstellt, indem das GPT-4V-Modell mit spezifischen Anweisungen abgefragt wurde.

Verständnis von Emotionen

Bestehende Emotionsdatensätze kategorisieren Gefühle oft in breite Kategorien wie Glück, Traurigkeit oder Wut. Diese Kategorien fangen jedoch nicht die Komplexität menschlicher Emotionen ein, die stark vom Kontext abhängen kann. Unser Ansatz nutzt detaillierte Beschreibungen von Emotionen, um diese Einschränkungen zu überwinden, sodass ein präziseres Verständnis dafür entsteht, wie Menschen ihre Gefühle ausdrücken.

Aktions-Einheits-Erkennung

Traditionell verwenden Aktions-Einheits-Anmerkungen binäre Vektoren, die anzeigen, ob bestimmte Bewegungen vorhanden sind. Diese Methode liefert jedoch keine Details über die Intensität oder Merkmale dieser Bewegungen. Unser Ansatz bietet reichhaltigere Beschreibungen, die nicht nur anzeigen, welche Aktions-Einheiten aktiv sind, sondern auch wie stark sie aktiviert werden und wie sie mit Emotionen in Verbindung stehen.

Instruction-Following-Benchmark

Da FABA-Instruct detaillierte Beschreibungen für Emotionen und Aktions-Einheiten verwendet, mussten unsere Bewertungsmethoden von traditionellen Aufgaben abweichen. Wir konnten uns nicht auf Metriken wie BLEU oder ROUGE verlassen, die sich hauptsächlich auf die Flüssigkeit des generierten Textes konzentrieren. Wir haben eine neue Metrik namens REGE eingeführt, um sowohl die Erkennungs- als auch die Generierungsfähigkeiten der Modelle zu bewerten.

Bewertungsmetriken

Der REGE-Score berücksichtigt sowohl, wie gut ein Modell Emotionen und Aktions-Einheiten erkennt, als auch wie effektiv es genaue Beschreibungen von ihnen generiert. Zum Beispiel wird die Erkennungsleistung durch Genauigkeit für Emotionen und F1-Werte für Aktions-Einheiten bewertet.

Das EmoLA-Modell

EmoLA ist unser neues MLLM, das speziell für FABA-Aufgaben entwickelt wurde. Sein Framework kombiniert einen Bildexperten zur Analyse von Gesichtern, einen Sprachexperten zur Verarbeitung von Texten und Funktionen, die die Trainingseffizienz verbessern. EmoLA nutzt ein vorheriges Gesichtskenntnis-Modul, um Informationen zur Gesichtsstruktur besser zu erfassen, die bestehende Modelle oft übersehen.

Training und Implementierung

Wir trainieren EmoLA mithilfe einer Kombination aus traditionellen FABA-Datensätzen und unserem neuen FABA-Instruct-Dataset. Der Trainingsprozess ist effizient, da er eine selektive Anpassung bestimmter Modellparameter ermöglicht, anstatt das gesamte Modell anzupassen.

Experimentelle Ergebnisse

Wir haben umfangreiche Experimente sowohl auf traditionellen FABA-Datensätzen als auch auf unserem FABA-Bench durchgeführt. EmoLA hat in beiden Einstellungen aussergewöhnlich gut abgeschnitten und dabei Top-Ergebnisse auf dem FABA-Instruct erzielt und war wettbewerbsfähig mit anderen State-of-the-Art-Modellen auf traditionellen Datensätzen.

Ergebnisse auf traditionellen Datensätzen

Bei gängigen Datensätzen wie RAF-DB und anderen, die sich auf Aktions-Einheiten konzentrieren, haben wir festgestellt, dass EmoLA bestehende Methoden konstant übertrifft, was das Potenzial von MLLMs zur Bewältigung der Herausforderungen beim Erkennen von Gesichtsemotionen demonstriert.

Effektivität des Facial Prior Tokens

Wir haben die Rolle des Facial Prior Tokens untersucht und festgestellt, dass dessen Einbeziehung die Erkennungsleistung signifikant steigert. Selbst wenn es von anderen Daten isoliert ist, behält es nützliche Eigenschaften, die das Verständnis verbessern. Die Kombination mit visuellen Tokens vom Bildexperten führt jedoch zu noch besseren Ergebnissen.

Auswirkungen von Tuning-Strategien

Es wurden auch verschiedene Strategien zur Feinabstimmung der Modellparameter untersucht. Das Feinabstimmen bestimmter Komponenten wie des Prior-Projektors führte zu einer besseren Gesamtleistung im Vergleich zur Konzentration allein auf visuelle Tokens. Dies zeigt den Wert von sorgfältigem Modelldesign und Trainingsstrategien.

Einschränkungen und zukünftige Richtungen

Obwohl diese Arbeit wertvolle Beiträge zu FABA leistet, gibt es einige Einschränkungen. Zum Beispiel haben wir noch nicht die Verwendung verschiedener Arten von Gesichtsmerkmale-Extraktoren über Landmarkenmerkmale hinaus untersucht. Ausserdem könnte einige Rauschen in die Trainingsdaten eingeführt worden sein, aufgrund von Fehlern im GPT-4V-Modell, was die Genauigkeit der Annotationen beeinträchtigen könnte.

Wir erkennen auch potenzielle negative Auswirkungen an, die mit dem Einsatz von FABA-Technologien verbunden sind, wie z.B. Datenschutzbedenken oder das Risiko falscher Bewertungen, die zu Fehlurteilen in sensiblen Umfeldern führen könnten.

Für die Zukunft planen wir, unsere Methoden zu erweitern, um mehr gesichtsbezogene Aufgaben einzubeziehen und die Integration weiterer Gesichtszüge zu erkunden. Der Übergang von statischen Bildern zu Videoanalysen ist ein weiterer vielversprechender Bereich für zukünftige Forschungen.

Fazit

Diese Arbeit verbessert das Feld der Facial Affective Behavior Analysis, indem sie ein innovatives Instruction-Following-Dataset, ein umfassendes Benchmark zur Bewertung und ein neues MLLM-Modell vorgestellt hat, das speziell für dieses Gebiet entwickelt wurde. Die positiven Ergebnisse aus umfassenden Tests zeigen die Effektivität von EmoLA und deuten auf ihr Potenzial für breitere Anwendungen hin, um menschliche Emotionen durch Gesichtsausdrücke zu verstehen.

Originalquelle

Titel: Facial Affective Behavior Analysis with Instruction Tuning

Zusammenfassung: Facial affective behavior analysis (FABA) is crucial for understanding human mental states from images. However, traditional approaches primarily deploy models to discriminate among discrete emotion categories, and lack the fine granularity and reasoning capability for complex facial behaviors. The advent of Multi-modal Large Language Models (MLLMs) has been proven successful in general visual understanding tasks. However, directly harnessing MLLMs for FABA is challenging due to the scarcity of datasets and benchmarks, neglecting facial prior knowledge, and low training efficiency. To address these challenges, we introduce (i) an instruction-following dataset for two FABA tasks, e.g., emotion and action unit recognition, (ii) a benchmark FABA-Bench with a new metric considering both recognition and generation ability, and (iii) a new MLLM "EmoLA" as a strong baseline to the community. Our initiative on the dataset and benchmarks reveal the nature and rationale of facial affective behaviors, i.e., fine-grained facial movement, interpretability, and reasoning. Moreover, to build an effective and efficient FABA MLLM, we introduce a facial prior expert module with face structure knowledge and a low-rank adaptation module into pre-trained MLLM. We conduct extensive experiments on FABA-Bench and four commonly-used FABA datasets. The results demonstrate that the proposed facial prior expert can boost the performance and EmoLA achieves the best results on our FABA-Bench. On commonly-used FABA datasets, EmoLA is competitive rivaling task-specific state-of-the-art models.

Autoren: Yifan Li, Anh Dao, Wentao Bao, Zhen Tan, Tianlong Chen, Huan Liu, Yu Kong

Letzte Aktualisierung: 2024-07-12 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2404.05052

Quell-PDF: https://arxiv.org/pdf/2404.05052

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel