Miglioramenti nel riconoscimento della lingua dei segni indiana
Un nuovo set di dati e modello migliorano la comunicazione in lingua dei segni.
― 6 leggere min
Indice
Il Riconoscimento automatico della lingua dei Segni è super importante per migliorare la comunicazione tra persone sorde e mute e la comunità udente. La Lingua dei Segni Indiana (ISL) è unica e ha bisogno di più dati per avere sistemi di riconoscimento precisi. Questo pezzo parla di un nuovo dataset creato per l'ISL con oltre 40.000 video, insieme a un nuovo Modello progettato per riconoscere i segni dell'ISL in modo più efficace.
ISL e la Sua Importanza
La lingua dei segni è un modo naturale di comunicare usato dalle persone sorde. Ha la sua grammatica e struttura, rendendola diversa dalla lingua parlata. La comunità sorda usa la lingua dei segni per interagire e socializzare. Ma ci sono circa 466 milioni di persone nel mondo con problemi uditivi, quindi colmare il divario comunicativo è fondamentale. Il riconoscimento automatico della lingua dei segni ha guadagnato attenzione nella ricerca, concentrandosi su due task: riconoscimento di segni isolati e riconoscimento di segni continui.
Il riconoscimento di segni isolati implica identificare singoli segni, mentre il riconoscimento continuo si occupa di riconoscere frasi di segni. Questo documento si concentra sul riconoscimento di segni isolati, che è cruciale per costruire sistemi efficienti. Attualmente, i dataset per l'ISL sono limitati, rendendo difficile sviluppare modelli di riconoscimento robusti.
Sfide nel Riconoscimento dell'ISL
Il riconoscimento della lingua dei segni affronta diverse sfide che lo rendono diverso dal riconoscimento generale delle azioni. Queste includono confini sfocati tra i vari segni, occlusioni di parti del corpo e variazioni nel modo in cui le persone firmano. Caratteristiche uniche dell'ISL, come i segni compositi (che consistono in due o più componenti), aggiungono complessità al compito di riconoscimento.
Il dataset che stiamo introducendo affronta queste sfide fornendo una risorsa ricca per sviluppare sistemi di riconoscimento della lingua dei segni. Include un ampio vocabolario di parole comunemente usate in ISL, registrate da un gruppo diversificato di firmatari.
Il Nuovo Dataset ISL
Il nostro nuovo dataset ISL include 40.033 video che coprono 2.002 parole di uso quotidiano. Il dataset presenta 20 firmatari (10 maschi e 10 femmine), creando una rappresentazione di genere equilibrata. Le parole sono categorizzate in diversi gruppi in base ai loro significati, come relazioni familiari o oggetti domestici. Il dataset è strutturato in modo che non ci sia sovrapposizione di firmatari nei set di addestramento, validazione e test, assicurando che ogni segno sia rappresentato equamente.
I video sono stati registrati usando vari angoli di ripresa per catturare diverse prospettive dei segni. Questo approccio multi-view aiuta a comprendere meglio come vengono eseguiti i diversi segni. Inoltre, il dataset è reso disponibile per la ricerca, fornendo una risorsa preziosa per studi futuri nel riconoscimento della lingua dei segni.
Modello di Riconoscimento Proposto
Per utilizzare il nuovo dataset, abbiamo sviluppato un nuovo modello di riconoscimento chiamato Hierarchical Windowed Graph Attention Network (HWGAT). Questo modello cattura i movimenti del corpo umano usando una rappresentazione grafica dello scheletro umano. Ecco come funziona il modello:
Rappresentazione Grafica dello Scheletro: Il modello inizia rappresentando il corpo umano in termini di punti chiave (giunzioni dello scheletro). Analizzando questi punti chiave, il modello può comprendere i movimenti che corrispondono a diversi segni.
Meccanismo di Attenzione: Il modello HWGAT utilizza un meccanismo di attenzione che si concentra su parti specifiche del corpo quando riconosce i segni. Questo aiuta a enfatizzare i movimenti più rilevanti.
Input a Finestra: Invece di elaborare l'intero grafo dello scheletro tutto insieme, il modello lo divide in parti più piccole, permettendo di concentrarsi meglio su movimenti specifici senza interferenze da altre parti del corpo.
Dinamiche Temporali: Il modello tiene anche conto del passare del tempo raggruppando i frame in un modo che cattura il movimento nel tempo. Questo aiuta a riconoscere segni che possono cambiare leggermente da un frame all’altro.
In generale, il modello HWGAT mira a migliorare l'accuratezza del riconoscimento della lingua dei segni considerando le caratteristiche uniche della lingua dei segni.
Valutazione Sperimentale
Per verificare il nostro dataset e modello, sono stati condotti ampi esperimenti. Gli obiettivi della valutazione includevano:
Confrontare il Nuovo Dataset: Le prestazioni del dataset sono state valutate rispetto ai dataset ISL esistenti. Il nostro dataset ha mostrato un numero maggiore di video e un vocabolario più ampio, dimostrando la sua forza in termini di disponibilità di risorse.
Testare il Modello HWGAT: Il nostro nuovo modello è stato testato contro altri modelli all’avanguardia utilizzando sia il nuovo dataset che dataset di lingua dei segni ben noti. Il modello HWGAT ha superato molti modelli esistenti nel riconoscere i segni attraverso vari dataset.
Risultati Chiave
Forza del Dataset: Il nuovo dataset è ricco e diversificato, offrendo una risorsa preziosa per sviluppare sistemi di riconoscimento dell’ISL. Il suo vocabolario più ampio e il numero di video rispetto ai dataset precedenti indicano la sua robustezza.
Prestazioni del Modello: Il modello HWGAT ha dimostrato prestazioni migliori rispetto a molti modelli tradizionali, enfatizzando la sua capacità nel riconoscimento della lingua dei segni. Ulteriori affinamenti del modello su dataset più piccoli hanno ulteriormente migliorato la sua accuratezza.
Conclusione
L'introduzione di un dataset ISL isolato su larga scala insieme al modello HWGAT rappresenta un notevole progresso nel campo del riconoscimento della lingua dei segni. Questo sviluppo non solo fornisce uno strumento robusto per i ricercatori ma contribuisce anche a colmare il divario comunicativo tra le comunità sorde e udenti.
La natura comprensiva del dataset, unita al modello avanzato, promette progressi futuri nel riconoscimento e nell'interpretazione della lingua dei segni. Ci si aspetta che questo lavoro acceleri la ricerca nel riconoscimento dell’ISL e sia utile anche in contesti educativi per insegnare l’ISL in modo efficace.
Lavori Futuri
I futuri sforzi si concentreranno sul miglioramento ulteriore del dataset, possibilmente includendo più firmatari, segni e ulteriore variabilità ambientale. C'è anche potenziale per migliorare il modello HWGAT integrando tecniche aggiuntive per una migliore accuratezza nel riconoscimento. Collaborare con esperti di lingua dei segni garantirà che i modelli rimangano pertinenti e aggiornati con la natura in evoluzione della lingua dei segni.
Inoltre, speriamo che questo lavoro incoraggi ulteriori ricerche nel riconoscimento automatico della lingua dei segni in altre lingue e dialetti, promuovendo l'inclusività per la comunità sorda in tutto il mondo.
Titolo: Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition
Estratto: Automatic Sign Language (SL) recognition is an important task in the computer vision community. To build a robust SL recognition system, we need a considerable amount of data which is lacking particularly in Indian sign language (ISL). In this paper, we introduce a large-scale isolated ISL dataset and a novel SL recognition model based on skeleton graph structure. The dataset covers 2002 daily used common words in the deaf community recorded by 20 (10 male and 10 female) deaf adult signers (contains 40033 videos). We propose a SL recognition model namely Hierarchical Windowed Graph Attention Network (HWGAT) by utilizing the human upper body skeleton graph. The HWGAT tries to capture distinctive motions by giving attention to different body parts induced by the human skeleton graph. The utility of the proposed dataset and the usefulness of our model are evaluated through extensive experiments. We pre-trained the proposed model on the presented dataset and fine-tuned it across different sign language datasets further boosting the performance of 1.10, 0.46, 0.78, and 6.84 percentage points on INCLUDE, LSA64, AUTSL and WLASL respectively compared to the existing state-of-the-art keypoints-based models.
Autori: Suvajit Patra, Arkadip Maitra, Megha Tiwari, K. Kumaran, Swathy Prabhu, Swami Punyeshwarananda, Soumitra Samanta
Ultimo aggiornamento: 2024-09-27 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.14224
Fonte PDF: https://arxiv.org/pdf/2407.14224
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.