Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz# Maschinelles Lernen

SignSpeak: Ein neuer Ansatz für die ASL-Übersetzung

SignSpeak bietet eine Echtzeit-Übersetzung in ASL mit innovativer Sensortechnologie an.

― 4 min Lesedauer


ASL-KommunikationASL-Kommunikationtransformiereninnovativer Sensortechnologie.Echtzeit-ASL-Übersetzung mit
Inhaltsverzeichnis

Viele Menschen, die hör- oder sprachbehindert sind, haben Schwierigkeiten, effektiv zu kommunizieren. Eine gängige Gebärdensprache in Nordamerika ist die American Sign Language (ASL). Allerdings ist nur ein kleiner Prozentsatz der Bevölkerung fliessend in ASL, was es vielen Leuten schwer macht, im Alltag zu interagieren. Um diese Kommunikationslücke zu überbrücken, haben wir eine kostengünstige und effiziente Methode entwickelt, um ASL in Echtzeit in gesprochene Sprache zu übersetzen.

Das Problem

Das Hauptproblem für hör- und sprachbehinderte Menschen ist die mangelnde fliessende Kommunikation in Gebärdensprache. Das führt zu Schwierigkeiten beim Zugang zu Bildung, Arbeitsmöglichkeiten und wichtigen Dienstleistungen, was zu Gefühlen von Isolation und Depression beitragen kann. Frühere Methoden basierten auf Kameras zur Identifizierung von ASL-Gesten, hatten aber ihre Grenzen. Oft ist es unpraktisch, in vielen realen Situationen eine Kamera zu benutzen, und es gibt Datenschutzbedenken, wenn man Leute aufnimmt. Ausserdem benötigt das Senden von Videoaufnahmen an einen Server zur Verarbeitung viel Rechenleistung, die nicht immer verfügbar ist.

Ein neuer Ansatz

Um diese Herausforderungen zu überwinden, haben wir uns auf sensorbasierte Methoden konzentriert. Unser Ziel war es, ASL als ein Zeitreihen-Klassifizierungsproblem zu betrachten. Viele bestehende Datensätze zur ASL sind privat und repräsentieren nicht die vielfältigen Gebärden, die im echten Leben vorkommen. Daher haben wir unseren eigenen Open-Source-ASL-Datensatz namens SignSpeak erstellt. Dieser Datensatz besteht aus 7200 Aufnahmen, die 36 Klassen abdecken, darunter die Buchstaben A-Z und die Zahlen 1-10.

Datensammlung

Für die Datensammlung haben wir einen speziellen Handschuh gebaut, der mit fünf Flex-Sensoren ausgestattet ist, einem für jeden Finger. Diese Sensoren messen das Beugen der Finger beim Gebärden. Mit einem Arduino-Mikrocontroller haben wir Daten mit einer Frequenz von 36 Mal pro Sekunde aufgezeichnet. Wir haben uns nur auf Gesten konzentriert, die echte Zeichen waren, und versehentliche Bewegungen ausgeschlossen. Jedes Zeichen wurde innerhalb eines bestimmten Zeitrahmens aufgezeichnet, um die Genauigkeit zu gewährleisten.

Modellarchitektur

Nachdem wir unseren Datensatz gesammelt hatten, wollten wir Modelle entwickeln, die ASL effektiv in gesprochene Sprache übersetzen können. Wir haben verschiedene Modelltypen ausprobiert, darunter Rekurrente Neuronale Netzwerke (RNNs) und Transformer. Wir verwendeten ein zweischichtiges Long Short-Term Memory (LSTM) Modell und ein zweischichtiges Gated Recurrent Unit (GRU) Modell. Die Ausgaben dieser Modelle wurden in eine Klassifikationsschicht eingespeist, um zu identifizieren, welches Zeichen gemacht wurde.

Benchmarking und Ergebnisse

Um zu bewerten, wie gut unsere Modelle funktionierten, haben wir den Datensatz in verschiedene Teile für Training und Tests aufgeteilt. Die besten Ergebnisse zeigten, dass unsere Modelle eine Genauigkeit von 92% erreichen konnten. Wir haben unsere Ergebnisse mit bestehenden Datensätzen verglichen und festgestellt, dass frühere Modelle in unserem SignSpeak-Datensatz nicht so gut abschnitten. Das liegt wahrscheinlich daran, dass ihre Daten anders gesammelt wurden, was sich darauf ausgewirkt hat, wie gut ihre Modelle auf neue Zeichen verallgemeinern konnten.

Herausforderungen bei der Klassifikation

Während unserer Bewertung haben wir einige Muster in der Leistung unserer Modelle entdeckt. Zum Beispiel hat eines der Modelle oft bestimmte Buchstaben verwechselt, insbesondere 'E' und 'L'. Das Modell hat 'E' häufig als 'L' identifiziert. Das deutet darauf hin, dass das Modell zwar in der Lage war, Zeichen zu erkennen, aber vielleicht einige Vorurteile bei der Klassifizierung spezifischer Gesten gelernt hat, was darauf hindeutet, dass weitere Verbesserungen möglich sind.

Zukünftige Richtungen

In Zukunft sehen wir mehrere Bereiche für Verbesserungen. Erstens benötigen unsere Modelle derzeit nur eine moderate Rechenleistung, aber wir glauben, dass die Verwendung fortschrittlicherer Rechenressourcen zu noch besseren Ergebnissen führen könnte. Ausserdem sind die Arten von Gesten in unserem Datensatz auf Buchstaben und Zahlen beschränkt. Die Erweiterung des Datensatzes um Phrasen, Aktionen und komplexere Zeichen wird dazu beitragen, die Übersetzung im Alltag nützlicher zu machen.

Um die Genauigkeit unserer Gesten zu verbessern, hoffen wir auch, die Aufzeichnungsrate von 36 Hz auf 200 Hz in zukünftigen Iterationen zu erhöhen. Das würde es unserem System ermöglichen, die realen Gebärdengeschwindigkeiten von Menschen im Alltag besser widerzuspiegeln.

Fazit

Zusammenfassend haben wir SignSpeak eingeführt, einen zugänglichen, Open-Source-Datensatz zur Übersetzung von ASL in gesprochene Sprache mithilfe eines sensorbasierten Handschuhsystems. Unsere Ergebnisse zeigen, dass die Verwendung eines gestapelten GRU-Modells uns starke Ergebnisse bei der Übersetzung von ASL ermöglicht. Indem wir unseren Datensatz Forschern und Entwicklern zur Verfügung stellen, hoffen wir, Technologien zu schaffen, die hör- und sprachbehinderten Menschen helfen, effektiver zu kommunizieren. Unsere Arbeit legt den Grundstein für zukünftige Fortschritte in der ASL-Übersetzung, mit dem Potenzial, das Leben vieler in der Gemeinschaft zu verbessern.

Mehr von den Autoren

Ähnliche Artikel