Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Künstliche Intelligenz# Maschinelles Lernen

Fortschritte bei der Gesichtsausdruckserkennung

Dieser Artikel stellt neue Methoden vor, um komplexe Emotionen in KI zu erkennen.

― 9 min Lesedauer


Durchbruch bei derDurchbruch bei derKI-Gefühls­erkennungvon KI, komplexe Emotionen zu erkennen.Neue Methoden verbessern die Fähigkeit
Inhaltsverzeichnis

Komplexe Emotionserkennung ist wichtig, um Maschinen zu schaffen, die menschliche Gefühle anhand von Gesichtsausdrücken verstehen können. Das ist ne ganz schöne Herausforderung, weil menschliche Emotionen nicht immer klar sind. Damit eine Maschine komplexe Emotionen genau identifizieren kann, muss sie schnell neue Konzepte mit minimalen Informationen lernen, ähnlich wie Menschen das tun. Menschen können neue Ideen schnell erfassen, indem sie sich an wichtige Details erinnern und weniger relevante vergessen.

Um das zu erreichen, werden zwei Schlüsselmethoden im maschinellen Lernen verwendet: kontinuierliches Lernen und Few-Shot-Lernen. Kontinuierliches Lernen konzentriert sich darauf, neues Wissen zu erwerben, während das, was bereits bekannt ist, erhalten bleibt. Few-Shot-Lernen dagegen erlaubt es einem Modell, neue Aufgaben mit sehr wenigen Beispielen zu erlernen. Dieser Artikel stellt eine neue Methode vor, die diese Lernstrategien verbessert, um neue und komplexe Gesichtsausdrücke mit einer sehr begrenzten Anzahl von Trainingsproben genau zu erkennen.

Mit fortschrittlichen visuellen Tools zeigen wir, wie unsere Methode grundlegende und komplexe Gesichtsausdrücke verbindet. Unser Ansatz nutzt Wissen aus bekannten Ausdrücken, um neue zu identifizieren. Die Ergebnisse zeigen, dass unsere Methode deutlich besser abschneidet als traditionelle Methoden. Mit einer Gesamtgenauigkeit von 74,28 % bei neuen komplexen Ausdrucksklassen ist unsere Methode ein grosser Fortschritt im Vergleich zu früheren Ansätzen. Besonders beeindruckend ist, dass wir perfekte Genauigkeit bei nur einem Beispiel für jede neue Ausdrucksklasse erzielt haben.

Die Rolle der künstlichen Intelligenz

Wir leben jetzt in einer Zeit, in der künstliche Intelligenz (KI) in verschiedenen Bereichen immer wichtiger wird. Die Fähigkeit von KI, menschliche Leistungen in komplexen Aufgaben wie Bilderkennung und Sprachverarbeitung zu erreichen oder sogar zu übertreffen, bedeutet, dass sie bei komplizierten Aktivitäten wie Autofahren, Diagnostik von Krankheiten und Bearbeitung von Kundenanfragen helfen kann. Aber diese KI-Systeme müssen auch die menschlichen Aspekte der Kommunikation, Empathie und Mitgefühl einbeziehen.

Effektive Kommunikation ist entscheidend für menschliches Lernen, Zusammenarbeit und gesellschaftliche Entwicklung. Gesichtsausdrücke sind starke Indikatoren für Emotionen und Absichten und vermitteln mehr als die Hälfte unserer emotionalen Kommunikation. Daher ist die genaue Erkennung von Gesichtsausdrücken entscheidend für Berufe, die ein feines Verständnis erfordern, wie Pflege, Betreuung und Kundenservice. Wenn KI menschliche Emotionen auf einem Niveau erkennen kann, das mit Menschen vergleichbar ist, kann man ihr vertrauen, um in diesen anspruchsvollen Rollen zu helfen.

Damit KI dieses Verständnis erreicht, muss sie lernen wie Menschen – schnell neue Konzepte erfassen und sie mit bestehendem Wissen verknüpfen. Dieser Artikel diskutiert, wie kontinuierliches Lernen und Few-Shot-Lernen KI-Systeme verbessern können, um komplexe Gesichtsausdrücke zu erkennen. Durch das Beibehalten des Wissens über grundlegende Gesichtsausdrücke können Maschinen eine bessere Leistung erzielen, wenn sie neue komplexe Emotionen lernen.

Grundverständnis von Gesichtsausdrücken

Die meisten Forschungen zur Gesichtsausdruckserkennung (FER) folgen einem von Psychologen etablierten kategorialen System, das sechs grundlegende Emotionen identifiziert: Wut, Ekel, Angst, Freude, Traurigkeit und Überraschung, später noch Verachtung. Diese grundlegenden Ausdrücke werden als universell anerkannt in verschiedenen Kulturen.

Trotz dieses Rahmens können Menschen eine breite Palette komplexer Gefühle ausdrücken, die nicht ordentlich in diese Kategorien passen. Menschen können neue komplexe Emotionen identifizieren und verstehen, sobald sie auftauchen, was Maschinen aktuell schwerfällt. Zum Beispiel könnte eine Person einen „glücklich ekelhaften“ Ausdruck zeigen, der Elemente von Freude und Ekel kombiniert. Solche zusammengesetzten Ausdrücke zu erkennen, erfordert, dass eine Maschine Merkmale aus mehreren grundlegenden Emotionen synthetisiert.

Deep-Learning-Methoden für FER lernen automatisch Merkmale und Muster aus grossen Datensätzen. Allerdings ist das Trainingsmaterial für komplexe Emotionen im Vergleich zu dem, was für grundlegende Emotionen verfügbar ist, begrenzt. Das stellt eine grosse Herausforderung dar. Darüber hinaus können Verzerrungen in den Trainingsdaten, die mit persönlichen Attributen wie Alter, Geschlecht und Ethnie zusammenhängen, die Fähigkeit der Maschine beeinträchtigen, korrekt auf unbekannte Subjekte zu generalisieren.

Die Bedeutung von kontinuierlichem und Few-Shot-Lernen

Um komplexe FER zu verbessern, braucht es einen neuen Ansatz, der das inkrementelle Lernen neuer Emotionen ermöglicht. Kontinuierliches Lernen hilft Maschinen, neue emotionale Klassen nach und nach hinzuzufügen, während das Wissen über bereits gelernte Klassen erhalten bleibt.

Ein grosses Problem beim kontinuierlichen Lernen ist das „katastrophale Vergessen“. Das passiert, wenn ein Modell weniger genau darin wird, zuvor gelernte Emotionen zu erkennen, weil seine Gewichtungen bei der Erlernung neuer Emotionen erheblich verändert werden. Verschiedene Techniken wie Gedächtniswiederholung und Wissensdestillation helfen, dieses Problem zu mildern.

Few-Shot-Lernen konzentriert sich darauf, Modelle mit sehr wenigen Beispielen zu trainieren – manchmal nur mit einem einzigen Bild. Das ist nützlich in realen Szenarien wie kurzen Auftritten auf Sicherheitsaufnahmen oder sozialen Medien, wo Fälle von Emotionen selten sein können. Durch die Anwendung von Few-Shot-Lernen in komplexer FER können KI-Systeme trainiert werden, neue Emotionen nur aus einer Handvoll von Beispielen zu erkennen, was die Interaktionen zwischen Mensch und Computer verbessert.

Forschungsdesign und Methodik

Unsere vorgeschlagene Methode besteht aus drei Hauptphasen:

  1. Grundlegende FER-Phase: In dieser Anfangsphase lernt ein Modell, sechs grundlegende Ausdrücke anhand eines Datensatzes von beschrifteten Bildern zu erkennen.

  2. Kontinuierliche Lernphase: Das Modell, das jetzt auf grundlegende Ausdrücke trainiert ist, lernt, neue komplexe Ausdrücke der Reihe nach zu identifizieren und dabei Wissen aus früheren Klassen zu behalten.

  3. Few-Shot-Lernphase: Das Modell lernt, neue komplexe Ausdrücke mit sehr wenigen Beispielen auf einmal zu erkennen. Diese Phase testet, wie gut das Modell das Gelernte aus grundlegenden Ausdrücken anwenden kann.

Grundlegende FER-Phase

In der grundlegenden FER-Phase lernt das Modell die Beziehung zwischen Bildern und ihren entsprechenden Ausdrucksetiketten. Diese Phase konzentriert sich darauf, sechs grundlegende Emotionen korrekt zu identifizieren, und es ist entscheidend, in diesem Schritt eine hohe Genauigkeit zu erreichen, da dies die Grundlage für die folgenden Phasen bildet.

Die Architektur des Modells besteht aus zwei Hauptteilen. Der erste Teil ist ein Merkmals-Extraktor, der ein Residualnetzwerk verwendet, um wichtige Merkmale aus Bildern zu lernen. Dieses Netzwerk wird vortrainiert, um gängige Formen und Linien in Bildern zu identifizieren, bevor es auf den Datensatz für Gesichtsausdrücke feinabgestimmt wird. Der zweite Teil ist eine Klassifikationsschicht, die Vorhersagen basierend auf den extrahierten Merkmalen ausgibt.

Die in das Modell eingespeisten Bilder durchlaufen eine Vorverarbeitung, um eine konsistente Qualität sicherzustellen, einschliesslich Gesichtserkennung und Datenaugmentierungstechniken, um Variabilität einzuführen und somit die Leistung des Modells zu verbessern.

Kontinuierliche Lernphase

In der kontinuierlichen Lernphase lernt das Modell neue komplexe Ausdrücke in einer Reihe von Iterationen. Bei jeder Iteration wird eine neue Ausdrucksklasse zum Training ausgewählt, und das Modell passt seine Architektur an, um einen neuen Ausgabeknoten für den neuen Ausdruck hinzuzufügen, während es sein vorheriges Wissen beibehält.

Während dieser Phase behält ein Gedächtnissystem einen Teil der Trainingsproben aus zuvor gelerntem Klassen. Dieses Gedächtnis hilft, das Verständnis des Modells für frühere Ausdrücke zu verstärken, während es neue lernt. Das Modell ruft selektiv die repräsentativsten Proben ab, um die Leistung zu optimieren und Vergessen zu minimieren.

Diese Phase betont die Bedeutung nahtlosen Lernens, bei dem das Modell in Echtzeit anpassungsfähig sein und neues Wissen integrieren kann, ähnlich wie Menschen aus ihren Erfahrungen lernen.

Few-Shot-Lernphase

In der Few-Shot-Lernphase lernt das Modell neue komplexe Ausdrücke mit sehr wenigen Trainingsproben, von eins bis fünf. Unter Verwendung derselben Architektur wie in den vorherigen Phasen testet dieser Abschnitt die Anpassungsfähigkeit und Effizienz des Modells beim Lernen aus begrenzten Daten.

Während dieser Phase werden die Parameter des Modells für jede neue Ausdrucksklasse zurückgesetzt, um seine Fähigkeit zu bewerten, isoliert zu lernen. Das Training umfasst die Minimierung des Verlusts zwischen den vorhergesagten Ergebnissen und den tatsächlichen Etiketten, ähnlich wie in den vorherigen Phasen.

Die Leistung in dieser Phase hebt die Effektivität der Wissensdestillation aus grundlegenden Ausdrücken hervor und zeigt, dass ein solides Fundament zu verbesserten Lernfähigkeiten führt.

Evaluation und Ergebnisse

Wir haben die Datenbank „Compound Facial Expressions of Emotion“ (CFEE) zur Evaluation verwendet. Dieser Datensatz enthält Tausende von Bildern von verschiedenen Personen, die komplexe Emotionen zeigen, und bietet einen umfassenden Testbereich für unser Modell.

Das Evaluationsverfahren umfasste eine k-fache Kreuzvalidierung, bei der der Datensatz in zehn Teile aufgeteilt wird. Jede Iteration hält einen Teil zur Validierung zurück, während die verbleibenden Teile zum Training verwendet werden. Diese Methode stellt sicher, dass das Modell jedes Mal an unbekannten Daten getestet wird und hilft, Verzerrungen durch spezifische Subjekte zu reduzieren.

In der grundlegenden FER-Phase wird das Modell trainiert, um die höchstmögliche Genauigkeit zu erreichen. Sobald die Genauigkeit festgelegt ist, gehen wir zur Evaluierung der Leistung in den kontinuierlichen Lern- und Few-Shot-Lernphasen über und zeichnen die Ergebnisse jeder Iteration auf.

Die Ergebnisse zeigen, dass unsere Methode während der kontinuierlichen Lernphase hohe Genauigkeit erreichte und die Leistung deutlich über die standardmässigen Ansätze hinaus verbesserte. Zudem zeigte das Modell in der Few-Shot-Lernphase perfekte Genauigkeit bei minimalen Trainingsproben, was einen bedeutenden Fortschritt in diesem Bereich darstellt.

Fazit

Diese Arbeit präsentiert einen neuartigen Ansatz zur Erkennung komplexer Gesichtsausdrücke durch verbesserte kontinuierliche und Few-Shot-Lernstrategien. Die Ergebnisse zeigen, dass ein gut strukturiertes Grundverständnis von Emotionen die Fähigkeit von KI-Systemen verbessert, neue emotionale Ausdrücke effizient zu lernen und sich anzupassen.

Unsere Methoden zeigen greifbare Vorteile im Vergleich zu traditionellen Systemen, indem sie beeindruckende Genauigkeitsraten erreichen und gleichzeitig die Anzahl der erforderlichen Trainingsbeispiele minimieren. Diese Fortschritte zeigen vielversprechende Wege für verbesserte Interaktionen zwischen Mensch und Computer, insbesondere in Bereichen, in denen emotionale Intelligenz entscheidend ist, wie im Gesundheitswesen und im Kundenservice.

Zukünftige Entwicklungen könnten zusätzliche Datensätze zur Validierung erkunden, um die Robustheit und Vielseitigkeit des Modells bei der Erkennung komplexer Emotionen in unterschiedlichen realen Situationen zu verbessern.

Originalquelle

Titel: Complex Facial Expression Recognition Using Deep Knowledge Distillation of Basic Features

Zusammenfassung: Complex emotion recognition is a cognitive task that has so far eluded the same excellent performance of other tasks that are at or above the level of human cognition. Emotion recognition through facial expressions is particularly difficult due to the complexity of emotions expressed by the human face. For a machine to approach the same level of performance in complex facial expression recognition as a human, it may need to synthesise knowledge and understand new concepts in real-time, as humans do. Humans are able to learn new concepts using only few examples by distilling important information from memories. Inspired by human cognition and learning, we propose a novel continual learning method for complex facial expression recognition that can accurately recognise new compound expression classes using few training samples, by building on and retaining its knowledge of basic expression classes. In this work, we also use GradCAM visualisations to demonstrate the relationship between basic and compound facial expressions. Our method leverages this relationship through knowledge distillation and a novel Predictive Sorting Memory Replay, to achieve the current state-of-the-art in continual learning for complex facial expression recognition, with 74.28% Overall Accuracy on new classes. We also demonstrate that using continual learning for complex facial expression recognition achieves far better performance than non-continual learning methods, improving on state-of-the-art non-continual learning methods by 13.95%. Our work is also the first to apply few-shot learning to complex facial expression recognition, achieving the state-of-the-art with 100% accuracy using only a single training sample per class.

Autoren: Angus Maiden, Bahareh Nakisa

Letzte Aktualisierung: 2023-11-05 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2308.06197

Quell-PDF: https://arxiv.org/pdf/2308.06197

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel