Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Progressi nella stima dell'età usando immagini facciali

Un nuovo metodo migliora la stima dell'età dalle immagini facciali riducendo al minimo l'influenza dell'identità.

― 5 leggere min


Scoperta nella AnalisiScoperta nella Analisidell'Età Faccialeaccurate dell'età da immagini facciali.Nuovo metodo permette previsioni
Indice

Stimare l'età di una persona dalle immagini del suo viso è un campo di interesse in crescita. Questo compito può essere difficile perché ottenere un grande insieme di immagini della stessa persona a diverse età è complicato. Qui, invece, si propone di usare dataset disponibili che mostrano persone diverse a varie età. L'obiettivo è trovare caratteristiche legate all'età riducendo l'influenza dell'identità sui risultati.

La Sfida dell'Estrazione dell'Età

L'estimazione dell'età implica analizzare le caratteristiche visive presenti nelle immagini facciali. Diversi aspetti del viso di una persona, come le rughe e la texture della pelle, cambiano con l'età. Tuttavia, diverse persone hanno strutture facciali diverse, il che rende difficile isolare le caratteristiche legate all'età. La maggior parte dei metodi esistenti utilizza grandi dataset, ma raccogliere una serie di immagini della stessa persona nel corso della sua vita non è facile.

Tradizionalmente, i metodi di stima dell'età possono essere divisi in tre categorie: classificazione, regressione e ranking. Recentemente, sono state introdotte nuove tecniche come l'apprendimento auto-supervisionato. Tuttavia, molti di questi metodi si concentrano troppo sull'identificazione di una persona invece che sulla sua età, il che può portare a imprecisioni.

Come Funziona

Il metodo proposto mira a migliorare l'estimazione dell'età utilizzando una tecnica chiamata Apprendimento Contrastivo. Questa tecnica confronta le immagini per enfatizzare le caratteristiche legate all'età, riducendo al contempo le caratteristiche collegate all'identità. Per fare ciò, il metodo utilizza set di tre immagini. Un'immagine funge da ancoraggio, una è simile per età ma diversa per identità, e la terza è diversa sia per età che per identità.

Osservando queste immagini insieme, il sistema cerca di ridurre l'influenza dell'identità sulla previsione dell'età. Ciò significa che può concentrarsi su dettagli più piccoli che indicano l'età, piuttosto che essere influenzato da chi è la persona.

Dataset e Protocolli

Il metodo è stato testato su due dataset pubblicamente disponibili: MORPH II e FG-NET. Il dataset MORPH II contiene oltre 55.000 immagini di circa 13.600 individui, con età che vanno da 16 a 77 anni. FG-NET ha oltre 1.000 immagini di 82 individui, con età da neonati a 69 anni. Questi dataset sono stati utilizzati in diversi studi, rendendoli ideali per confrontare i risultati.

Passi di Implementazione

Prima dell'analisi, tutte le immagini sono state allineate per garantire coerenza. È stato utilizzato un modello chiamato ResNet-18 per estrarre caratteristiche da queste immagini normalizzate. Durante l'addestramento, varie aumentazioni delle immagini, come ribaltamenti casuali e trasformazioni, hanno aiutato a migliorare la capacità del modello di generalizzare.

L'addestramento è stato effettuato utilizzando un ottimizzatore chiamato Adam, che regola i tassi di apprendimento durante l'addestramento. Il modello è stato valutato in base all'Errore Assoluto Medio (MAE), che misura la differenza tra le età previste e quelle reali.

Risultati e Confronti

Quando è stata valutata la performance del modello proposto sul dataset MORPH II, ha mostrato risultati promettenti, raggiungendo un MAE basso, il che significa che le sue previsioni di età erano abbastanza accurate. Rispetto ad altri metodi che richiedono grandi dataset esterni per l'addestramento, questo modello ha funzionato bene utilizzando solo i dati disponibili.

La performance sul dataset FG-NET è stata altrettanto forte. La conclusione principale è che il metodo ha funzionato bene attraverso diversi gruppi di età senza necessità di dati aggiuntivi, il che è un grande vantaggio.

Focalizzandosi sulle Caratteristiche

Per assicurarsi che il modello si stesse concentrando sulle caratteristiche legate all'età, i ricercatori hanno confrontato la varianza delle caratteristiche estratte dai volti della stessa identità. Una varianza più bassa indicherebbe che il modello si affidava troppo a caratteristiche legate all'identità, il che non è desiderabile per un compito di previsione dell'età. Il metodo ha dimostrato una varianza più alta nelle caratteristiche estratte rispetto ai metodi tradizionali, suggerendo che ha enfatizzato con successo i dettagli legati all'età.

Analisi Visiva

È stata eseguita un'analisi Grad-CAM per visualizzare quali parti del viso il modello ha focalizzato durante l'estimazione dell'età. Questa analisi ha mostrato che il modello proposto ha mirato a specifiche regioni del viso più legate all'età, come la fronte per gli individui di mezza età e le aree attorno alla bocca per i soggetti più giovani. Questa attenzione su caratteristiche particolari indica che il modello non si basa semplicemente su strutture facciali generiche, ma cerca segni specifici dell'età.

Valutazione delle Funzioni di Perdita

La ricerca ha anche esplorato come diverse funzioni di perdita abbiano impattato le performance. Confrontando varie combinazioni di funzioni di perdita, è emerso che alcune configurazioni hanno funzionato meglio di altre. L'interazione tra similarità coseno e perdita per margine triplo è stata particolarmente efficace, permettendo al modello di ottenere risultati migliori sia su dataset piccoli che grandi.

Attraverso test rigorosi, lo studio ha trovato che l'utilizzo di una combinazione di entrambi i tipi di funzioni di perdita ha portato alla migliore performance. In particolare, i modelli che includevano la perdita per margine triplo hanno mostrato una maggiore accuratezza, specialmente in set di dati più piccoli.

Conclusione

In sintesi, il metodo introdotto per l'estimazione dell'età da immagini facciali utilizza l'apprendimento contrastivo per ridurre efficacemente l'impatto dell'identità sulla previsione dell'età. Concentrandosi sulle caratteristiche rilevanti associate all'invecchiamento, mentre si minimizza l'influenza dei tratti legati all'identità, questo approccio ha dimostrato forti performance su vari dataset.

La ricerca ha evidenziato che, selezionando con attenzione come confrontare le immagini e quali caratteristiche enfatizzare, è possibile fare previsioni di età accurate senza fare affidamento su ampi dataset di volti individuali. Questo metodo mostra promesse per future applicazioni in campi come sicurezza, marketing e sanità, dove comprendere l'età dalle immagini può fornire preziose intuizioni.

Articoli simili