Neuer Datensatz verbessert die Erkennung von ASL-Fingerspelling
Ein grosses Datenset sorgt für bessere Kommunikation für gehörlose Nutzer mit Smartphones.
― 5 min Lesedauer
Inhaltsverzeichnis
- Was ist Buchstabieren?
- Das Datenset
- Zweck des Datensets
- Wie die Daten gesammelt wurden
- Qualität der Daten
- Bedeutung der Daten
- Herausforderungen bei Erkennungssystemen
- Kontext und Anwendungsfälle
- Vorherige Arbeiten
- Teilnehmer
- Struktur des Datensets
- Demografische Fairness
- Zukünftige Verbesserungen
- Leistung des Erkennungsmodells
- Fazit
- Ethische Überlegungen
- Gemeinschaftsauswirkungen
- Abschliessende Gedanken
- Originalquelle
- Referenz Links
Das Verständnis von Gebärdensprachen hat sich langsam entwickelt, weil es an Daten mangelt. Ein neues Datenset, das sich auf das Buchstabieren mit den Händen in American Sign Language (ASL) konzentriert, wurde erstellt und nutzt Videos, die mit Smartphones aufgenommen wurden. Dieses Datenset ist dafür gedacht, bessere Kommunikationsmethoden für gehörlose und schwerhörige Menschen zu bieten.
Was ist Buchstabieren?
Buchstabieren ist die Praxis, Wörter mit Handbewegungen zu buchstabieren. Diese Technik wird oft für Eigennamen oder neue Konzepte in Gebärdensprachen verwendet. Während es nur ein Teil der Gebärdensprache ist, kann es die Kommunikation verbessern, wenn fortgeschrittene Technologien entwickelt werden.
Das Datenset
Das neue ASL Buchstabier-Datenset ist das grösste seiner Art und besteht aus Videos, die von 147 gehörlosen Gebärdenden mit Pixel 4A Selfie-Kameras aufgenommen wurden. Die Aufnahmen wurden in verschiedenen Umgebungen gemacht, um eine breite Palette von Settings einzufangen. Das Datenset enthält etwa 3,2 Millionen Zeichen und 266 Stunden Video, was es zehnmal grösser macht als das vorherige grösste Datenset.
Zweck des Datensets
Das Hauptziel dieses Datensets ist es, gehörlosen Nutzern zu helfen, effektiver mit Smartphones zu kommunizieren. Buchstabieren kann schneller und praktischer sein als traditionelle Eingabemethoden. Dieses Datenset könnte zu besseren Texteingabemethoden für gehörlose Nutzer führen und deren Erfahrung mit Technologie gerechter machen.
Wie die Daten gesammelt wurden
Um die Daten zu sammeln, wurden gehörlose Gebärdende über ein Netzwerk rekrutiert, das sich auf die Gehörlosengemeinschaft konzentriert. Die Teilnehmer bekamen Smartphones mit einer benutzerdefinierten App, um sich beim Buchstabieren von Phrasen aufzunehmen. Die App ermöglichte es ihnen, Aufnahmen einfach zu starten und zu stoppen.
Qualität der Daten
Die Qualität der Videoaufnahmen variierte aufgrund verschiedener Faktoren. Einige Teilnehmer trugen Masken, während andere versehentlich die Kameraeinstellungen änderten. Diese Variationen führten zu Herausforderungen, aber sie bieten eine reiche Informationsquelle zur Entwicklung von Erkennungssystemen.
Bedeutung der Daten
Buchstabieren spielt eine wichtige Rolle in ASL und macht etwa 12 % bis 35 % des Gebärdens aus. Das neue Datenset kann helfen, unsere Fähigkeit zu verbessern, Buchstabieren schnell und genau zu erkennen, was zu besseren Kommunikationsmethoden für gehörlose Personen führt.
Herausforderungen bei Erkennungssystemen
Frühere Gebärdensprachsysteme versuchten, einzelne Bilder des Buchstabierens zu erkennen. Diese Systeme konnten jedoch oft nicht die Geschwindigkeit des Buchstabierens und die Komplexität, wo ein Buchstabiertes Wort endet und ein anderes beginnt, berücksichtigen.
Kontext und Anwendungsfälle
Die Texteingabe auf Smartphones ist oft der erste Gedanke, wenn es um Kommunikationsmethoden geht. Mitglieder der Gehörlosengemeinschaft haben betont, dass Buchstabieren besonders nützlich sein kann, um Namen oder Adressen in Smartphone-Apps einzugeben. Dieses Datenset zielt darauf ab, solche spezifischen Anwendungsfälle zu unterstützen.
Vorherige Arbeiten
Frühere Datensets wie PopSign und ASL Citizen konzentrierten sich auf isolierte Aufgaben zur Zeichenerkennung. Diese Datensets dienen jedoch unterschiedlichen Zwecken und bieten nicht das gleiche Mass an Daten für das Buchstabieren.
Teilnehmer
Die Gebärdenden, die zu dem Datenset beigetragen haben, erhielten eine Vergütung für ihre Teilnahme. Es war wichtig, dass gehörlose Personen in den Datensammlungsprozess einbezogen wurden. Ihre Einsichten halfen, das Datenset so zu gestalten, dass es echten Bedürfnissen entspricht.
Struktur des Datensets
Das Datenset ist in Trainings-, Validierungs- und Testproben unterteilt, wobei in jeder Gruppe einzigartige Gebärdende sind. Dieser Ansatz stellt sicher, dass es keine Überschneidungen gibt, was die Bewertung der Erkennungsmodelle genauer macht.
Demografische Fairness
Es wurden Anstrengungen unternommen, um sicherzustellen, dass das Datenset eine Vielfalt von Hintergründen widerspiegelt. Dazu gehören sowohl Hautfarbe als auch Geschlechtsdarstellung. Das Datenset zeigt eine gute Variation in der Hautfarbe, hat jedoch an beiden Enden des Spektrums Schwächen.
Zukünftige Verbesserungen
Obwohl das aktuelle Datenset ein Schritt nach vorne ist, gibt es noch Verbesserungsbedarf. Dazu gehört eine bessere Repräsentation von Symbolen und vielfältigere Formate innerhalb jeder Kategorie. Auch die Verbesserung der Anweisungen zur Darstellung von Leerzeichen und Grossbuchstaben im Buchstabieren ist notwendig.
Leistung des Erkennungsmodells
Das mit diesem Datenset verwendete Erkennungsmodell wird voraussichtlich einen neuen Standard in der Buchstabiererkennung setzen. Die erreichte Basisleistung ist deutlich besser als bei früheren Versuchen. Das Modell zeigt vielversprechende Ansätze, Buchstabieren in Echtzeit mit Smartphones erkennen zu können.
Fazit
Dieses neue ASL Buchstabier-Datenset zielt darauf ab, die Kommunikation für gehörlose Personen mit Smartphones zu verbessern. Das Datenset zeigt bereits Potenzial, das Design von Texteingabemethoden zu beeinflussen. Zukünftige Arbeiten könnten zu noch effektiveren Technologien führen, die ein vollständiges Verständnis von ASL unterstützen.
Ethische Überlegungen
Es ist wichtig, die Privatsphäre der Mitwirkenden zu respektieren. Alle Teilnehmer gaben ihr Einverständnis, dass ihre Videos öffentlich genutzt werden. Besondere Sorgfalt wurde darauf gelegt, ihre Identität zu schützen, während das Datenset seinen Zweck erfüllt.
Gemeinschaftsauswirkungen
Durch die Fokussierung auf die Bedürfnisse der Gehörlosengemeinschaft ist dieses Datenset ein bedeutender Schritt, um Technologie zugänglicher zu machen. Die Einbeziehung gehörloser Gebärdender in den Erstellungprozess hilft sicherzustellen, dass die Ergebnisse für die Nutzer sinnvoll sind.
Abschliessende Gedanken
Mit dem technischen Fortschritt wird die Notwendigkeit effektiver Kommunikationsmethoden wachsen. Datensets wie dieses sind entscheidend, um die Daten zu liefern, die benötigt werden, um bessere Systeme zur Erkennung von Gebärdensprache zu entwickeln. Wir hoffen, dass diese Arbeit zu inklusiveren und effektiveren Werkzeugen für gehörlose und schwerhörige Personen führt.
Titel: FSboard: Over 3 million characters of ASL fingerspelling collected via smartphones
Zusammenfassung: Progress in machine understanding of sign languages has been slow and hampered by limited data. In this paper, we present FSboard, an American Sign Language fingerspelling dataset situated in a mobile text entry use case, collected from 147 paid and consenting Deaf signers using Pixel 4A selfie cameras in a variety of environments. Fingerspelling recognition is an incomplete solution that is only one small part of sign language translation, but it could provide some immediate benefit to Deaf/Hard of Hearing signers as more broadly capable technology develops. At >3 million characters in length and >250 hours in duration, FSboard is the largest fingerspelling recognition dataset to date by a factor of >10x. As a simple baseline, we finetune 30 Hz MediaPipe Holistic landmark inputs into ByT5-Small and achieve 11.1% Character Error Rate (CER) on a test set with unique phrases and signers. This quality degrades gracefully when decreasing frame rate and excluding face/body landmarks: plausible optimizations to help models run on device in real time.
Autoren: Manfred Georg, Garrett Tanzer, Saad Hassan, Maximus Shengelia, Esha Uboweja, Sam Sepah, Sean Forbes, Thad Starner
Letzte Aktualisierung: 2024-07-22 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.15806
Quell-PDF: https://arxiv.org/pdf/2407.15806
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.kaggle.com/datasets/garretttanzer/fsboard
- https://www.kaggle.com/datasets/googleai/fsboard
- https://kaggle.com/datasets/garretttanzer/fsboard
- https://datastudio.google.com
- https://www.tensorflow.org/api_docs/python/tf/edit_distance
- https://www.kaggle.com/competitions/asl-fingerspelling/leaderboard
- https://www.rauschenbach.de