SignSpeak: Un Nuovo Approccio alla Traduzione dell'ASL
SignSpeak offre traduzione in tempo reale della LIS usando tecnologia sensoriale innovativa.
― 4 leggere min
Indice
Molte persone con problemi di udito o di linguaggio affrontano sfide nella comunicazione efficace. Una lingua dei segni comune in Nord America è la Lingua dei segni americana (ASL). Tuttavia, solo una piccola percentuale della popolazione è fluente in ASL, il che rende difficile per molte persone interagire in situazioni quotidiane. Per aiutare a colmare questo gap comunicativo, abbiamo sviluppato un modo accessibile ed efficiente per tradurre l'ASL in linguaggio parlato in tempo reale.
Il Problema
Il problema principale per le persone con problemi di udito e di linguaggio è la mancanza di comunicazione fluente in lingua dei segni. Questo porta a difficoltà nell'accesso all'istruzione, opportunità di lavoro e servizi essenziali, contribuendo a sentimenti di isolamento e depressione. I metodi passati si sono basati sull'uso di telecamere per identificare i gesti in ASL, ma questo approccio ha delle limitazioni. Spesso è poco pratico usare una telecamera in molte situazioni della vita reale, e ci sono preoccupazioni riguardo alla privacy quando si registrano le persone. Inoltre, inviare filmati a un server per l'elaborazione richiede anche una notevole potenza di calcolo, che non è sempre disponibile.
Un Nuovo Approccio
Per superare queste sfide, ci siamo concentrati su metodi basati su sensori. Il nostro obiettivo era trattare l'ASL come un problema di classificazione delle serie temporali. Molti set di dati esistenti relativi all'ASL sono privati e non rappresentano la ricca varietà di segni che si verifica nella vita reale. Così, abbiamo creato il nostro dataset open-source chiamato SignSpeak. Questo dataset consiste in 7200 registrazioni, coprendo 36 classi, che includono le lettere A-Z e i numeri 1-10.
Raccolta Dati
Per raccogliere dati, abbiamo costruito un guanto speciale dotato di cinque sensori di flessione, uno per ciascun dito. Questi sensori misurano la flessione delle dita mentre si firma. Usando un microcontrollore Arduino, abbiamo registrato i dati a una frequenza di 36 volte al secondo. Ci siamo concentrati solo sui gesti che erano segni autentici, assicurandoci di escludere i movimenti accidentali. Ogni segno è stato registrato entro un intervallo di tempo specifico per garantire accuratezza.
Architettura del Modello
Dopo aver raccolto il nostro dataset, volevamo sviluppare modelli che potessero tradurre efficacemente l'ASL in linguaggio parlato. Abbiamo provato diversi tipi di modelli, incluse Reti Neurali Ricorrenti (RNN) e Trasformatori. Abbiamo usato un modello LSTM a due strati e un modello GRU a due strati. L'output di questi modelli è stato inserito in uno strato di classificazione per identificare quale segno stava venendo eseguito.
Benchmarking e Risultati
Per valutare quanto bene funzionassero i nostri modelli, abbiamo diviso il dataset in diverse parti per l'addestramento e il test. I migliori risultati hanno mostrato che i nostri modelli erano in grado di raggiungere un'accuratezza del 92%. Abbiamo confrontato i nostri risultati con quelli di dataset esistenti e abbiamo scoperto che i modelli precedenti non performavano altrettanto bene sul nostro dataset SignSpeak. Questo è probabilmente dovuto al fatto che i loro dati sono stati raccolti in modo diverso, il che ha influenzato quanto bene i loro modelli potessero generalizzare a nuovi segni.
Sfide nella Classificazione
Durante la nostra valutazione, abbiamo scoperto alcuni modelli nel modo in cui i nostri sviluppi hanno funzionato. Ad esempio, uno dei modelli confondeva spesso alcune lettere, in particolare 'E' e 'L'. Il modello ha identificato erroneamente 'E' come 'L' abbastanza frequentemente. Questo suggerisce che, mentre il modello era in grado di riconoscere i segni, potrebbe aver appreso alcuni bias nella classificazione di gesti specifici, il che indica che possono essere fatti ulteriori miglioramenti.
Direzioni Future
Guardando avanti, vediamo diverse aree di miglioramento. Prima di tutto, i nostri modelli attualmente richiedono solo una potenza di calcolo moderata, ma crediamo che utilizzare risorse informatiche più avanzate potrebbe portare a risultati ancora migliori. Inoltre, i tipi di gesti nel nostro dataset sono limitati a lettere e numeri. Espandere il dataset per includere frasi, azioni e segni più complessi aiuterà a rendere la traduzione più utile nella comunicazione quotidiana.
Per migliorare l'accuratezza dei nostri gesti, speriamo anche di aumentare la velocità di registrazione da 36 Hz a 200 Hz nelle future iterazioni. Questo permetterebbe al nostro sistema di riflettere meglio le velocità di segno reali utilizzate dalle persone nella vita quotidiana.
Conclusione
In sintesi, abbiamo introdotto SignSpeak, un dataset accessibile e open-source per tradurre l'ASL in linguaggio parlato utilizzando un sistema di sensori basato su guanti. I nostri risultati mostrano che l'uso di un modello GRU impilato ci consente di ottenere buoni risultati nella traduzione dell'ASL. Rendendo il nostro dataset aperto a ricercatori e sviluppatori, speriamo di aiutare a creare tecnologie che possano assistere le persone con problemi di udito e di linguaggio nella comunicazione in modo più efficace. Il nostro lavoro getta le basi per futuri progressi nella traduzione dell'ASL, con il potenziale di migliorare la vita di molti nella comunità.
Titolo: SignSpeak: Open-Source Time Series Classification for ASL Translation
Estratto: The lack of fluency in sign language remains a barrier to seamless communication for hearing and speech-impaired communities. In this work, we propose a low-cost, real-time ASL-to-speech translation glove and an exhaustive training dataset of sign language patterns. We then benchmarked this dataset with supervised learning models, such as LSTMs, GRUs and Transformers, where our best model achieved 92% accuracy. The SignSpeak dataset has 7200 samples encompassing 36 classes (A-Z, 1-10) and aims to capture realistic signing patterns by using five low-cost flex sensors to measure finger positions at each time step at 36 Hz. Our open-source dataset, models and glove designs, provide an accurate and efficient ASL translator while maintaining cost-effectiveness, establishing a framework for future work to build on.
Autori: Aditya Makkar, Divya Makkar, Aarav Patel, Liam Hebert
Ultimo aggiornamento: 2024-07-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.12020
Fonte PDF: https://arxiv.org/pdf/2407.12020
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.