Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Visione artificiale e riconoscimento di modelli

Migliorare il riconoscimento della lingua dei segni con dataset migliori

Affrontare la sovrapposizione dei firmatari per migliorare l'accuratezza della rilevazione della lingua dei segni.

― 6 leggere min


Riqualificazione deiRiqualificazione deiDataset per ilRiconoscimento delriconoscimento.una migliore precisione diEliminare l'overlap dei firmatari per
Indice

La rilevazione della lingua dei segni riguarda capire se qualcuno sta usando la lingua dei segni. Questo sta diventando davvero importante, specialmente per le videochiamate e per raccogliere dati per allenare sistemi che riconoscono o traducono la lingua dei segni. Tuttavia, pensiamo che i dataset attuali usati per testare la rilevazione della lingua dei segni potrebbero non dare risultati accurati perché spesso mescolano i firmatari nelle fasi di allenamento e test.

Cos'è la Rilevazione della Lingua dei Segni?

La lingua dei segni è una lingua naturale usata dalla comunità dei sordi. Include vari movimenti del corpo per comunicare messaggi, comprese le forme delle mani, le espressioni facciali e la postura del corpo. I sistemi informatici tradizionali si concentrano principalmente sulle lingue parlate, rendendo la lingua dei segni meno visibile su molte piattaforme.

Con sempre più persone che iniziano a lavorare da remoto, il software che consente le videoconferenze è diventato comune. Questi programmi evidenziano spesso il relatore attivo in modo che il pubblico possa concentrarsi su di lui. Sfortunatamente, quando un utente della lingua dei segni inizia a firmare, può diventare nascosto, rendendo difficile comunicare efficacemente. Per colmare questa lacuna, è necessario migliorare gli strumenti di rilevazione della lingua dei segni in modo che possano identificare quando qualcuno sta firmando rispetto a quando non lo sta facendo.

Stato Attuale della Rilevazione della Lingua dei Segni

C'è un numero crescente di ricerche nella rilevazione della lingua dei segni, ma rimane un'area difficile. La maggior parte dei sistemi progettati per la rilevazione della lingua dei segni segue un processo in due fasi: prima estraggono caratteristiche importanti dal video, e poi classificano il video come contenente un utente della lingua dei segni o meno.

Ad esempio, alcuni studi utilizzano modelli che prendono fotogrammi video ed estraggono caratteristiche per determinare se una persona sta firmando. Hanno raggiunto tassi di precisione abbastanza elevati, ma a un'ispezione più attenta, sembra che questi risultati potrebbero non essere affidabili. Questo è principalmente perché gli stessi firmatari compaiono spesso sia nelle fasi di allenamento che di test, causando sovrapposizioni.

Il Problema con la Sovrapposizione dei Firmatari

Quando diciamo "sovrapposizione dei firmatari", intendiamo che la stessa persona potrebbe essere inclusa sia nei dataset di allenamento che in quelli di test. Questo può far sembrare che il sistema stia funzionando meglio di quanto non sia in realtà. Se un modello ha visto un particolare firmatario durante l'allenamento, probabilmente andrà bene quando incontrerà di nuovo lo stesso firmatario durante il test. Questo è un problema perché non mostra quanto bene il sistema possa funzionare su firmatari nuovi o diversi.

Per illustrare questo problema, abbiamo analizzato due dataset principali utilizzati per la rilevazione della lingua dei segni: il DGS Corpus e Signing in the Wild. Entrambi questi dataset mostrano una sovrapposizione significativa nei firmatari tra i gruppi di allenamento e test. Abbiamo misurato l'impatto di questa sovrapposizione e trovato cali evidenti nella precisione quando abbiamo confrontato i risultati dei dataset con e senza sovrapposizione di firmatari.

Soluzioni Proposte

Per migliorare il modo in cui valutiamo i sistemi di rilevazione della lingua dei segni, suggeriamo di creare nuovi dataset che non abbiano sovrapposizione di firmatari. Assicurandoci che un firmatario compaia solo in un dataset (o di allenamento, sviluppo o test), possiamo ottenere una valutazione più realistica di quanto bene questi sistemi stiano funzionando.

Per il DGS Corpus, abbiamo sviluppato un nuovo modo di suddividere i dati, assicurandoci che non ci fossero firmatari sia nei set di allenamento che in quelli di test. Questo accordo aiuterà a fornire un quadro più chiaro delle capacità del sistema. Allo stesso modo, abbiamo fatto lo stesso per il dataset Signing in the Wild.

Esaminare i Dataset: DGS Corpus

Il DGS Corpus è una raccolta di video che presenta la lingua dei segni tedesca, con oltre 1150 ore di materiale registrato. Solo una parte di questi dati è annotata per mostrare quando avviene la firma. Le suddivisioni esistenti del DGS Corpus suggerivano un mix di firmatari, che abbiamo identificato e quantificato.

Analizzando le suddivisioni originali suggerite da ricerche precedenti, abbiamo trovato che gli stessi firmatari apparivano sia nei set di allenamento che in quelli di test. Abbiamo scomposto il dataset originale per mostrare quanti firmatari si sovrapponevano tra queste fasi. Notare che 88 firmatari erano comuni tra i set di allenamento e sviluppo è stato allarmante. Per dimostrare l'effetto di questa sovrapposizione, abbiamo suddiviso il set di test originale in parti con e senza sovrapposizione.

Analizzando il Dataset Signing in the Wild

Il dataset Signing in the Wild consiste in video raccolti da YouTube, con l'obiettivo di includere una gamma diversificata di lingue dei segni e contesti. Questo dataset incorpora anche sia esempi di firma che di non-firma, come parlare e altre attività.

Simile al DGS Corpus, il dataset Signing in the Wild ha mostrato che i video dello stesso firmatario possono apparire in più suddivisioni, il che distorce i risultati di precisione. Esperimenti iniziali usando le suddivisioni originali indicavano migliori prestazioni a causa della sovrapposizione. Tuttavia, creando una nuova suddivisione senza sovrapposizione, ci aspettavamo di trovare un calo nella precisione, riflettendo una valutazione delle prestazioni più onesta.

Raggruppare i Firmatari per una Migliore Gestione dei Dati

Una delle sfide nel lavorare con il DGS Corpus è che non ci sono etichette per i firmatari all'interno dei video. Per affrontare questo, abbiamo impiegato un metodo chiamato Clustering facciale, che raggruppa volti simili in base a caratteristiche estratte. Utilizzando un algoritmo di clustering, abbiamo identificato e raggruppato i firmatari in base ai video in cui apparivano.

I risultati hanno mostrato variazioni nella precisione a seconda del numero di immagini utilizzate per il clustering. Abbiamo scoperto che utilizzare più immagini portava a una migliore precisione. Tuttavia, ci siamo ancora trovati di fronte a sfide nell’identificare perfettamente tutti i firmatari.

Conclusione

I risultati dell'analisi dei dataset DGS Corpus e Signing in the Wild indicano che la sovrapposizione dei firmatari influisce significativamente sull'efficacia dei sistemi di rilevazione della lingua dei segni. Per migliorare la precisione e garantire la generalizzazione, abbiamo proposto nuovi dataset che eliminano questa sovrapposizione.

In futuro, ridurre la sovrapposizione dei firmatari è essenziale per stabilire sistemi equi, responsabili e trasparenti per la rilevazione della lingua dei segni. Inoltre, il metodo di clustering aiuterà a migliorare la gestione dei dati della lingua dei segni affrontando le preoccupazioni sulla privacy.

In generale, creando dataset più affidabili e valutando le prestazioni della rilevazione della lingua dei segni senza sovrapposizione, possiamo lavorare verso strumenti migliori per la comunità sorda e migliorare l'accessibilità in vari contesti, specialmente nella comunicazione remota.

Fonte originale

Titolo: On the Importance of Signer Overlap for Sign Language Detection

Estratto: Sign language detection, identifying if someone is signing or not, is becoming crucially important for its applications in remote conferencing software and for selecting useful sign data for training sign language recognition or translation tasks. We argue that the current benchmark data sets for sign language detection estimate overly positive results that do not generalize well due to signer overlap between train and test partitions. We quantify this with a detailed analysis of the effect of signer overlap on current sign detection benchmark data sets. Comparing accuracy with and without overlap on the DGS corpus and Signing in the Wild, we observed a relative decrease in accuracy of 4.17% and 6.27%, respectively. Furthermore, we propose new data set partitions that are free of overlap and allow for more realistic performance assessment. We hope this work will contribute to improving the accuracy and generalization of sign language detection systems.

Autori: Abhilash Pal, Stephan Huber, Cyrine Chaabani, Alessandro Manzotti, Oscar Koller

Ultimo aggiornamento: 2023-03-19 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.10782

Fonte PDF: https://arxiv.org/pdf/2303.10782

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili