Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Fortschritte im semi-supervised Lernen für die Gesichtsausdruckserkennung

Diese Studie untersucht semi-supervised Methoden zur Verbesserung der Genauigkeit bei der Gesichtsausdruckserkennung.

― 8 min Lesedauer


Semi-Überwachtes LernenSemi-Überwachtes Lernenin FEREmotionserkennung.semi-supervised Techniken für dieStudie zeigt klare Vorteile von
Inhaltsverzeichnis

Gesichtsausdruckserkennung (FER) ist ein wichtiger Bereich in der Computer Vision, der es Computern ermöglicht, menschliche Emotionen zu erkennen. Diese Technologie kann in verschiedenen Bereichen wie Gesundheitswesen, Sicherheit und Smart Devices eingesetzt werden.

Deep-Learning-Techniken haben wesentlich zum Fortschritt der FER beigetragen. Ein grosses Problem ist jedoch, dass man eine Menge gelabelter Daten braucht, um Modelle zu trainieren. Das kann teuer und zeitaufwendig sein. Um dem entgegenzuwirken, haben Forscher auf semi-supervised learning zurückgegriffen, das sich auf eine kleine Menge gelabelter Daten in Kombination mit einem grossen Set ungelabelter Daten stützt.

Semi-supervised learning hat an Aufmerksamkeit gewonnen, weil es die Leistung mit minimalem Labeling verbessern kann. Es nutzt die Informationen aus den ungelabelten Daten, um den Lernprozess basierend auf den gelabelten Proben zu verbessern. Obwohl einige Studien semi-supervised learning in FER untersucht haben, wurden viele neue Methoden, die in der allgemeinen Computer Vision entwickelt wurden, in diesem Kontext noch nicht getestet.

Diese Studie hat zum Ziel, mehrere Methoden des semi-supervised learning für FER unter verschiedenen Datenszenarien zu untersuchen. Wir schauen uns an, wie gut diese Methoden abschneiden, wenn sie auf verschiedene Arten von ungelabelten Daten angewendet werden, einschliesslich in-distribution (ID), out-of-distribution (OOD) und unkonsturierten Datensätzen.

Gesichtsausdruckserkennung

FER ist ein entscheidender Teil der Computer Vision-Technologie, die Maschinen ermöglicht, menschliche Emotionen aus Bildern zu erkennen. Diese Fähigkeit hat Anwendungen in Bereichen wie psychischer Gesundheitsbewertung, Kundenfeedback-Analyse und Überwachungssystemen. Mit Hilfe von Deep Learning haben viele FER-Systeme beeindruckende Ergebnisse bei der Erkennung einer Vielzahl von Emotionen, einschliesslich Glück, Traurigkeit, Wut und Überraschung, erzielt.

Obwohl Deep Learning erhebliche Fortschritte gebracht hat, bleibt eine der grössten Herausforderungen die Notwendigkeit grosser gelabelter Datensätze. Das Sammeln dieser Datensätze kann ein arbeitsintensiver Prozess sein, was es schwierig macht, Deep-Learning-Methoden breiter einzusetzen. Semi-supervised learning bietet eine mögliche Lösung für dieses Problem, indem es Modellen ermöglicht, aus gelabelten und ungelabelten Daten zu lernen.

Semi-Supervised Learning

Semi-supervised learning ist eine Methode, die eine kleine Menge gelabelter Daten zusammen mit einer grösseren Menge ungelabelter Daten verwendet. Das Hauptziel ist es, bessere Darstellungen der Daten zu lernen und die Leistung des Modells zu verbessern. In diesem Ansatz werden sowohl gelabelte als auch ungelabelte Proben verwendet, was dem Modell hilft, besser zu generalisieren, wenn es mit neuen, ungesehenen Daten konfrontiert wird.

Die Idee ist, die Regelmässigkeiten in den ungelabelten Daten zu nutzen, um das Lernen in Situationen zu unterstützen, in denen gelabelte Daten knapp sind. Auf diese Weise kann semi-supervised learning die Menge der verfügbaren Daten effektiv erhöhen und die Modellleistung verbessern, ohne auf umfangreiche gelabelte Datensätze angewiesen zu sein.

In den letzten Jahren wurden verschiedene semi-supervised Methoden vorgeschlagen, und einige dieser Methoden haben vielversprechende Ergebnisse bei der Verbesserung von FER-Systemen gezeigt. Dennoch ist die Anwendung dieser Methoden im Kontext der FER noch begrenzt, und es bedarf weiterer Erkundungen.

Arten von Ungelabelten Daten

In unserer Studie konzentrieren wir uns auf drei Arten von ungelabelten Daten:

  1. In-distribution (ID) ungelabelte Daten: Diese Daten stammen aus derselben Quelle wie die gelabelten Daten. Die Bilder zeigen ähnliche Eigenschaften und Emotionsklassen wie die, die im gelabelten Datensatz vorhanden sind.

  2. Out-of-distribution (OOD) ungelabelte Daten: Diese Daten enthalten Bilder derselben Emotionsklassen, stammen aber aus einer anderen Quelle. Die Verteilung dieser Daten unterscheidet sich von der der gelabelten Daten, was Herausforderungen für das Modell schaffen kann.

  3. Unkonstruierte ungelabelte Daten: Diese Art von Daten stammt aus verschiedenen Quellen und kann Bilder von Emotionsklassen enthalten, die nicht unbedingt mit den gelabelten Klassen übereinstimmen. Dieses Szenario gilt als schwieriger als sowohl ID als auch OOD Lernen, da das Modell lernen muss, Emotionen aus völlig anderen Kontexten zu erkennen.

Studienziele

Die Hauptziele dieser Studie sind:

  • Untersuchen und Vergleichen von 11 aktuellen semi-supervised Methoden für FER.
  • Bewerten ihrer Leistung in verschiedenen Szenarien mit unterschiedlichen Arten von ungelabelten Daten, einschliesslich ID, OOD, unkonsturiert und sehr kleinen Datensätzen.
  • Analysieren, wie gut diese semi-supervised Methoden im Vergleich zu vollständig überwachten Lernmethoden abschneiden.

Überblick über Semi-Supervised Methoden

In dieser Studie werden wir 11 semi-supervised Methoden untersuchen, die für FER bewertet wurden. Diese Methoden umfassen:

  1. Pi-Modell: Eine Methode, die zwei Augmentierungen auf ein ungelabeltes Bild anwendet und die Vorhersagen ähnlichen zwingt.

  2. Pseudo-Label: Eine einfache Methode, die die Klassenwahrscheinlichkeiten für ungelabelte Proben vorhersagt und hochkonfidente Vorhersagen als Pseudo-Labels behandelt.

  3. Mean Teacher: Eine erweiterte Version des Pi-Modells, die einen exponentiell gleitenden Durchschnitt der Vorhersagen als Lehrer-Modell verwendet.

  4. Virtuelles adversariales Training (VAT): Bei dieser Methode werden adversarielle Störungen verwendet, um verschiedene Eingangsvariationen zu erzeugen, während die Konsistenz der Vorhersagen durchgesetzt wird.

  5. Unsupervised Domain Adaptation (UDA): Diese Technik verbessert die Leistung von Modellen, indem fortgeschrittene Augmentierungsmethoden verwendet werden, um vielfältige Proben zu erzeugen.

  6. MixMatch: Ein hybrider Ansatz, der die Konzepte der Konsistenzregulierung und Entropieminimierung kombiniert, um die Vorhersagen auf ungelabelten Daten zu verbessern.

  7. ReMixMatch: Eine Verbesserung von MixMatch mit neuen Ideen wie Verteilungsanpassung und Augmentierungsverankerung.

  8. FixMatch: Eine hybride Methode, die schwache und starke Augmentierungen verwendet, um Vorhersagen zu erzeugen und hochkonfidente Vorhersagen als Labels behandelt.

  9. FlexMatch: Eine Verbesserung von FixMatch, die einen klassen-spezifischen Schwellenwert basierend auf dem Lernstatus jeder Klasse einführt.

  10. CoMatch: Eine Erweiterung von FixMatch, die kontrastives Lernen leitet, das von vorhergesagten Pseudo-Labels geleitet wird.

  11. Class-aware Contrastive Semi-Supervised Learning (CCSSL): Eine Methode, die für OOD-Lernen entwickelt wurde und sich auf die Instanzdiskriminierung mithilfe von kontrastivem Verlust konzentriert.

Experimentelles Setup

Um die Leistung dieser semi-supervised Methoden zu bewerten, haben wir Experimente mit insgesamt sechs Datensätzen für FER durchgeführt:

  • FER13: Enthält über 28.000 Bilder aus sieben Emotionen, die aus dem Internet gesammelt wurden.
  • RAF-DB: Ein Datensatz, der aus ungefähr 15.000 Bildern besteht, die von mehreren Annotatoren annotiert wurden.
  • AffectNet: Ein grosser Datensatz mit etwa 284.000 Bildern, die acht Emotionen abdecken.
  • CelebA: Eine grossangelegte Sammlung von Gesichtsbilden, die nicht auf Ausdrücke beschränkt ist.
  • KDEF: Ein kleinerer Datensatz mit etwa 5.000 Bildern, die in kontrollierten Umgebungen aufgenommen wurden.
  • DDCF: Ein weiterer kleiner Datensatz bestehend aus etwa 6.500 Bildern von mehreren Emotionen.

Für alle Methoden verwendeten wir denselben Encoder und Trainingsprotokoll, um einen fairen Vergleich sicherzustellen. Der verwendete Encoder war ResNet-50. Wir führten Experimente mit unterschiedlichen Mengen gelabelter Proben durch, um die Leistung in verschiedenen Szenarien zu bewerten.

Ergebnisse

Semi-Supervised Learning mit ID Ungelabelten Daten

In unserem ersten Experiment bewerteten wir die Leistung der semi-supervised Methoden auf ID ungelabelten Daten unter Verwendung der Datensätze FER13, RAF-DB und AffectNet. Die Ergebnisse zeigten, dass FixMatch die anderen Methoden konstant übertraf und in verschiedenen Einstellungen die höchste Genauigkeit erreichte. Besonders hervorzuheben ist, dass es eine durchschnittliche Genauigkeit von über 50 % über verschiedene Datensätze hinweg erreichte, was die zweitbeste Methode deutlich übertraf.

Sensitivitätsanalyse

Anschliessend führten wir eine Sensitivitätsanalyse durch, um besser zu verstehen, wie Schlüsselhyperparameter die Leistung von FixMatch und MixMatch beeinflussen. Wir entdeckten, dass bestimmte Parameter in ihren optimalen Werten je nach Datensatz variieren, was darauf hindeutet, dass das Tuning entscheidend für die Modellleistung ist.

Vergleich mit Vollständig Überwachtem Lernen

Zusätzlich zur Bewertung der semi-supervised Methoden verglichen wir auch deren Leistung mit vollständig überwachten Lernmethoden. Die semi-supervised Methoden zeigten erhebliche Verbesserungen im Vergleich zum vollständig überwachten Lernen, wenn beiden Ansätzen dieselbe Menge an gelabelten Daten gegeben wurde. Beispielsweise verbesserten mehrere semi-supervised Methoden die Genauigkeit um mehr als 8 % in einigen Datensätzen.

Semi-Supervised Learning mit OOD Ungelabelten Daten

Anschliessend richteten wir unsere Aufmerksamkeit auf OOD ungelabelte Daten. Die Ergebnisse zeigten, dass alle Methoden einen Leistungsabfall im Vergleich zu ID-Lern-Szenarien erlitten. Dennoch erwiesen sich ReMixMatch und CCSSL als die besten Performer für OOD ung Label Learning. Trotz des Rückgangs der Genauigkeit übertrafen diese Methoden immer noch das vollständig überwachte Lernen.

Semi-Supervised Learning mit Unkonstruirten Ungelabelten Daten

Als wir die Methoden mit unkonsturierten ungelabelten Daten bewerteten, beobachteten wir ähnliche Trends. ReMixMatch erzielte erneut die besten Ergebnisse, während andere Methoden hinterherhinkten. Die Leistung der semi-supervised Methoden blieb höher als die der vollständig überwachten Methoden, was ihre Effektivität selbst in schwierigeren Situationen unterstreicht.

Kleine Datensätze

Zuletzt testeten wir auch die semi-supervised Methoden an zwei kleinen Datensätzen, KDEF und DDCF. Wiederum zeigte ReMixMatch die beste durchschnittliche Genauigkeit. Diese Ergebnisse deuten darauf hin, dass semi-supervised learning auch bei begrenzten Daten von Vorteil sein kann.

Fazit

Diese Studie präsentiert eine gründliche Untersuchung verschiedener semi-supervised learning Methoden für FER. Die Ergebnisse zeigen, dass FixMatch besonders effektiv für ID ungelabelte Daten ist, während ReMixMatch in schwierigeren Kontexten wie OOD und unkonsturierten Szenarien besser abschneidet. Wichtig ist, dass die Leistungsverbesserungen der semi-supervised Methoden im Vergleich zum vollständig überwachten Lernen ihr starkes Potenzial in realen Anwendungen demonstrieren.

Die Forschung hebt hervor, wie semi-supervised learning ein wertvoller Ansatz sein kann, um Systeme zur Gesichtsausdruckserkennung zu verbessern, besonders wenn das Sammeln gelabelter Daten herausfordernd ist. Die Ergebnisse deuten auch darauf hin, dass es möglich ist, angemessene Genauigkeiten zu erreichen, selbst wenn man mit unterschiedlichen Datenquellen konfrontiert ist, was das semi-supervised learning zu einem wichtigen Bereich für zukünftige Erkundungen in der FER und möglicherweise auch in anderen Bereichen macht.

Danksagungen

Wir danken den verschiedenen Organisationen, die diese Forschung ermöglicht haben. Die Ergebnisse dieser Forschung können zukünftige Studien im Bereich semi-supervised learning und dessen Anwendungen in verschiedenen Bereichen informieren.

Originalquelle

Titel: Exploring the Boundaries of Semi-Supervised Facial Expression Recognition using In-Distribution, Out-of-Distribution, and Unconstrained Data

Zusammenfassung: Deep learning-based methods have been the key driving force behind much of the recent success of facial expression recognition (FER) systems. However, the need for large amounts of labelled data remains a challenge. Semi-supervised learning offers a way to overcome this limitation, allowing models to learn from a small amount of labelled data along with a large unlabelled dataset. While semi-supervised learning has shown promise in FER, most current methods from general computer vision literature have not been explored in the context of FER. In this work, we present a comprehensive study on 11 of the most recent semi-supervised methods, in the context of FER, namely Pi-model, Pseudo-label, Mean Teacher, VAT, UDA, MixMatch, ReMixMatch, FlexMatch, CoMatch, and CCSSL. Our investigation covers semi-supervised learning from in-distribution, out-of-distribution, unconstrained, and very small unlabelled data. Our evaluation includes five FER datasets plus one large face dataset for unconstrained learning. Our results demonstrate that FixMatch consistently achieves better performance on in-distribution unlabelled data, while ReMixMatch stands out among all methods for out-of-distribution, unconstrained, and scarce unlabelled data scenarios. Another significant observation is that with an equal number of labelled samples, semi-supervised learning delivers a considerable improvement over supervised learning, regardless of whether the unlabelled data is in-distribution, out-of-distribution, or unconstrained. We also conduct sensitivity analyses on critical hyper-parameters for the two best methods of each setting. To facilitate reproducibility and further development, we make our code publicly available at: github.com/ShuvenduRoy/SSL_FER_OOD.

Autoren: Shuvendu Roy, Ali Etemad

Letzte Aktualisierung: 2024-11-21 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2306.01229

Quell-PDF: https://arxiv.org/pdf/2306.01229

Lizenz: https://creativecommons.org/licenses/by-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel