Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Intelligenza artificiale# Apprendimento automatico

SignSpeak: Un Nuovo Approccio alla Traduzione dell'ASL

SignSpeak offre traduzione in tempo reale della LIS usando tecnologia sensoriale innovativa.

― 4 leggere min


Trasformare laTrasformare lacomunicazione in ASLtecnologia dei sensori innovativa.Traduzione in tempo reale della LIS con
Indice

Molte persone con problemi di udito o di linguaggio affrontano sfide nella comunicazione efficace. Una lingua dei segni comune in Nord America è la Lingua dei segni americana (ASL). Tuttavia, solo una piccola percentuale della popolazione è fluente in ASL, il che rende difficile per molte persone interagire in situazioni quotidiane. Per aiutare a colmare questo gap comunicativo, abbiamo sviluppato un modo accessibile ed efficiente per tradurre l'ASL in linguaggio parlato in tempo reale.

Il Problema

Il problema principale per le persone con problemi di udito e di linguaggio è la mancanza di comunicazione fluente in lingua dei segni. Questo porta a difficoltà nell'accesso all'istruzione, opportunità di lavoro e servizi essenziali, contribuendo a sentimenti di isolamento e depressione. I metodi passati si sono basati sull'uso di telecamere per identificare i gesti in ASL, ma questo approccio ha delle limitazioni. Spesso è poco pratico usare una telecamera in molte situazioni della vita reale, e ci sono preoccupazioni riguardo alla privacy quando si registrano le persone. Inoltre, inviare filmati a un server per l'elaborazione richiede anche una notevole potenza di calcolo, che non è sempre disponibile.

Un Nuovo Approccio

Per superare queste sfide, ci siamo concentrati su metodi basati su sensori. Il nostro obiettivo era trattare l'ASL come un problema di classificazione delle serie temporali. Molti set di dati esistenti relativi all'ASL sono privati e non rappresentano la ricca varietà di segni che si verifica nella vita reale. Così, abbiamo creato il nostro dataset open-source chiamato SignSpeak. Questo dataset consiste in 7200 registrazioni, coprendo 36 classi, che includono le lettere A-Z e i numeri 1-10.

Raccolta Dati

Per raccogliere dati, abbiamo costruito un guanto speciale dotato di cinque sensori di flessione, uno per ciascun dito. Questi sensori misurano la flessione delle dita mentre si firma. Usando un microcontrollore Arduino, abbiamo registrato i dati a una frequenza di 36 volte al secondo. Ci siamo concentrati solo sui gesti che erano segni autentici, assicurandoci di escludere i movimenti accidentali. Ogni segno è stato registrato entro un intervallo di tempo specifico per garantire accuratezza.

Architettura del Modello

Dopo aver raccolto il nostro dataset, volevamo sviluppare modelli che potessero tradurre efficacemente l'ASL in linguaggio parlato. Abbiamo provato diversi tipi di modelli, incluse Reti Neurali Ricorrenti (RNN) e Trasformatori. Abbiamo usato un modello LSTM a due strati e un modello GRU a due strati. L'output di questi modelli è stato inserito in uno strato di classificazione per identificare quale segno stava venendo eseguito.

Benchmarking e Risultati

Per valutare quanto bene funzionassero i nostri modelli, abbiamo diviso il dataset in diverse parti per l'addestramento e il test. I migliori risultati hanno mostrato che i nostri modelli erano in grado di raggiungere un'accuratezza del 92%. Abbiamo confrontato i nostri risultati con quelli di dataset esistenti e abbiamo scoperto che i modelli precedenti non performavano altrettanto bene sul nostro dataset SignSpeak. Questo è probabilmente dovuto al fatto che i loro dati sono stati raccolti in modo diverso, il che ha influenzato quanto bene i loro modelli potessero generalizzare a nuovi segni.

Sfide nella Classificazione

Durante la nostra valutazione, abbiamo scoperto alcuni modelli nel modo in cui i nostri sviluppi hanno funzionato. Ad esempio, uno dei modelli confondeva spesso alcune lettere, in particolare 'E' e 'L'. Il modello ha identificato erroneamente 'E' come 'L' abbastanza frequentemente. Questo suggerisce che, mentre il modello era in grado di riconoscere i segni, potrebbe aver appreso alcuni bias nella classificazione di gesti specifici, il che indica che possono essere fatti ulteriori miglioramenti.

Direzioni Future

Guardando avanti, vediamo diverse aree di miglioramento. Prima di tutto, i nostri modelli attualmente richiedono solo una potenza di calcolo moderata, ma crediamo che utilizzare risorse informatiche più avanzate potrebbe portare a risultati ancora migliori. Inoltre, i tipi di gesti nel nostro dataset sono limitati a lettere e numeri. Espandere il dataset per includere frasi, azioni e segni più complessi aiuterà a rendere la traduzione più utile nella comunicazione quotidiana.

Per migliorare l'accuratezza dei nostri gesti, speriamo anche di aumentare la velocità di registrazione da 36 Hz a 200 Hz nelle future iterazioni. Questo permetterebbe al nostro sistema di riflettere meglio le velocità di segno reali utilizzate dalle persone nella vita quotidiana.

Conclusione

In sintesi, abbiamo introdotto SignSpeak, un dataset accessibile e open-source per tradurre l'ASL in linguaggio parlato utilizzando un sistema di sensori basato su guanti. I nostri risultati mostrano che l'uso di un modello GRU impilato ci consente di ottenere buoni risultati nella traduzione dell'ASL. Rendendo il nostro dataset aperto a ricercatori e sviluppatori, speriamo di aiutare a creare tecnologie che possano assistere le persone con problemi di udito e di linguaggio nella comunicazione in modo più efficace. Il nostro lavoro getta le basi per futuri progressi nella traduzione dell'ASL, con il potenziale di migliorare la vita di molti nella comunità.

Altro dagli autori

Articoli simili