Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Fortschritte bei der Altersbestimmung mit Gesichtsabbildungen

Eine neue Methode verbessert die Altersbestimmung aus Gesichtsaufnahmen und minimiert dabei den Einfluss der Identität.

― 5 min Lesedauer


Durchbruch bei derDurchbruch bei derGesichtsalteranalyseAltersvorhersagen aus Gesichtsbildern.Neue Methode erreicht genaue
Inhaltsverzeichnis

Die Schätzung des Alters einer Person anhand ihres Gesichtsbildes ist ein wachsendes Interessensgebiet. Diese Aufgabe kann schwierig sein, weil es nicht leicht ist, eine grosse Sammlung von Bildern derselben Person in verschiedenen Altersstufen zu bekommen. Stattdessen konzentriert sich der Vorschlag hier darauf, verfügbare Datensätze zu nutzen, die verschiedene Personen in unterschiedlichen Altersgruppen zeigen. Das Ziel ist es, Merkmale zu finden, die mit dem Alter zusammenhängen, während der Einfluss der Identität auf die Ergebnisse reduziert wird.

Die Herausforderung der Altersabschätzung

Altersabschätzung beinhaltet die Analyse der visuellen Merkmale in Gesichtsabbildungen. Verschiedene Aspekte des Gesichts einer Person, wie Falten und Hautstruktur, verändern sich mit dem Alter. Allerdings haben verschiedene Menschen unterschiedliche Gesichtsstrukturen, was es schwierig macht, altersbezogene Merkmale herauszufiltern. Die meisten bestehenden Methoden verwenden grosse Datensätze, aber eine Serie von Bildern derselben Person über deren Leben hinweg zu sammeln, ist nicht einfach.

Traditionell können Methoden der Altersabschätzung in drei Kategorien unterteilt werden: Klassifikation, Regression und Ranking. In letzter Zeit wurden neue Techniken wie selbstüberwachtes Lernen eingeführt. Viele dieser Methoden konzentrieren sich jedoch zu sehr darauf, eine Person zu identifizieren, anstatt ihr Alter, was zu Ungenauigkeiten führen kann.

Wie es funktioniert

Die vorgeschlagene Methode zielt darauf ab, die Altersabschätzung zu verbessern, indem eine Technik namens Kontrastives Lernen verwendet wird. Diese Technik vergleicht Bilder, um altersbezogene Merkmale hervorzuheben, während Merkmale, die mit der Identität zusammenhängen, herabgesetzt werden. Dazu verwendet die Methode Sets aus drei Bildern. Ein Bild dient als Anker, eines ist ähnlich im Alter, aber unterschiedlich in der Identität, und das dritte unterscheidet sich sowohl im Alter als auch in der Identität.

Indem das System diese Bilder zusammen betrachtet, versucht es, den Einfluss der Identität auf die Altersvorhersage zu reduzieren. Das bedeutet, dass es sich auf kleinere Details konzentrieren kann, die das Alter anzeigen, anstatt durch die Identität der Person voreingenommen zu werden.

Datensätze und Protokolle

Die Methode wurde an zwei öffentlich zugänglichen Datensätzen getestet: MORPH II und FG-NET. Der MORPH II-Datensatz enthält über 55.000 Bilder von etwa 13.600 Personen im Alter von 16 bis 77 Jahren. FG-NET hat über 1.000 Bilder von 82 Personen, mit Altersangaben von Neugeborenen bis 69 Jahren. Diese Datensätze wurden in verschiedenen Studien verwendet, wodurch sie ideal für den Vergleich der Ergebnisse sind.

Implementierungsschritte

Vor der Analyse wurden alle Bilder ausgerichtet, um Konsistenz zu gewährleisten. Ein Modell namens ResNet-18 wurde verwendet, um Merkmale aus diesen normalisierten Bildern zu extrahieren. Während des Trainings halfen verschiedene Bildaugmentationen, wie zufällige Spiegelungen und Transformationen, die Fähigkeit des Modells zur Generalisierung zu verbessern.

Das Training wurde mit einem Optimierer namens Adam durchgeführt, der die Lernraten während des Trainings anpasst. Das Modell wurde anhand des Mean Absolute Error (MAE) bewertet, der den Unterschied zwischen vorhergesagten und tatsächlichen Altersangaben misst.

Ergebnisse und Vergleiche

Bei der Bewertung der Leistung des vorgeschlagenen Modells auf dem MORPH II-Datensatz zeigte es vielversprechende Ergebnisse und erreichte einen niedrigen MAE, was bedeutet, dass die Altersvorhersagen ziemlich genau waren. Im Vergleich zu anderen Methoden, die grosse externe Datensätze für das Training benötigen, schnitt dieses Modell gut ab, indem es nur die verfügbaren Daten nutzte.

Die Leistung auf dem FG-NET-Datensatz war ebenfalls stark. Die wichtige Erkenntnis ist, dass die Methode über verschiedene Altersgruppen hinweg gut funktionierte, ohne zusätzliche Daten zu benötigen, was ein wesentlicher Vorteil ist.

Fokus auf Merkmale

Um sicherzustellen, dass das Modell sich auf altersbezogene Merkmale konzentrierte, verglichen die Forscher die Varianz der Merkmale, die aus Gesichtern derselben Identität extrahiert wurden. Eine geringere Varianz würde darauf hindeuten, dass das Modell stark auf Identitätsmerkmale angewiesen ist, was für eine Altersvorhersage nicht wünschenswert ist. Die Methode zeigte eine höhere Varianz bei den extrahierten Merkmalen im Vergleich zu herkömmlichen Methoden, was darauf hindeutet, dass sie erfolgreich altersbezogene Details betont hat.

Visuelle Analyse

Eine Grad-CAM-Analyse wurde durchgeführt, um zu visualisieren, auf welche Teile des Gesichts das Modell während der Altersabschätzung fokussierte. Diese Analyse zeigte, dass das vorgeschlagene Modell spezifische Gesichtsregionen anvisierte, die stärker mit dem Alter verbunden sind, wie die Stirn bei mittelalten Personen und Bereiche um den Mund bei jüngeren Probanden. Dieser Fokus auf bestimmte Merkmale deutet darauf hin, dass das Modell nicht einfach auf generische Gesichtsstrukturen angewiesen ist, sondern gezielt nach alterspezifischen Anzeichen sucht.

Bewertung der Verlustfunktionen

Die Forschung untersuchte auch, wie verschiedene Verlustfunktionen die Leistung beeinflussten. Durch den Vergleich verschiedener Kombinationen von Verlustfunktionen wurde deutlich, dass bestimmte Konfigurationen besser funktionierten als andere. Die Interaktion zwischen Kosinusähnlichkeit und Triplet-Margin-Loss war besonders effektiv, da sie es dem Modell ermöglichte, bessere Ergebnisse sowohl bei kleinen als auch bei grossen Datensätzen zu erzielen.

Durch rigoroses Testen fand die Studie heraus, dass die Verwendung einer Kombination dieser zwei Arten von Verlustfunktionen zu den besten Leistungen führte. Insbesondere Modelle, die Triplet-Margin-Loss einschlossen, zeigten eine verbesserte Genauigkeit, insbesondere bei kleineren Datensätzen.

Fazit

Zusammenfassend nutzt die vorgestellte Methode zur Altersabschätzung aus Gesichtsabbildungen kontrastives Lernen, um den Einfluss der Identität auf die Altersvorhersage effektiv zu reduzieren. Indem sie sich auf die relevanten Merkmale konzentriert, die mit dem Altern zusammenhängen, während der Einfluss identitätsbezogener Eigenschaften minimiert wird, hat dieser Ansatz eine starke Leistung in verschiedenen Datensätzen gezeigt.

Die Forschung hat hervorgehoben, dass es möglich ist, genaue Altersvorhersagen zu treffen, ohne auf umfangreiche Datensätze individueller Gesichter angewiesen zu sein, indem man sorgfältig wählt, wie man Bilder vergleicht und welche Merkmale betont werden. Diese Methode zeigt vielversprechende Anwendungen in Bereichen wie Sicherheit, Marketing und Gesundheitswesen, wo das Verständnis des Alters aus Bildern wertvolle Einblicke geben kann.

Ähnliche Artikel