Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Rechnen und Sprache

Fortschritte bei der Erkennung der indischen Gebärdensprache

Ein neuer Datensatz und ein Modell verbessern die Kommunikation in Gebärdensprache.

― 5 min Lesedauer


ISL-ErkennungsdatensatzISL-Erkennungsdatensatzund ModellGebärdensprache-Kommunikation.Neue Tools verbessern die Forschung zur
Inhaltsverzeichnis

Automatische Gebärdensprache-Erkennung ist wichtig für eine bessere Kommunikation zwischen gehörlosen und sprachlosen Menschen und der hörenden Gemeinschaft. Die Indische Gebärdensprache (ISL) ist einzigartig und braucht mehr Daten für genauere Erkennungssysteme. Dieser Beitrag behandelt ein neues Dataset, das für ISL mit über 40.000 Videos erstellt wurde, zusammen mit einem neuen Modell, das entwickelt wurde, um ISL-Zeichen effektiver zu erkennen.

ISL und ihre Bedeutung

Gebärdensprache ist eine natürliche Form der Kommunikation, die von gehörlosen Menschen verwendet wird. Sie hat ihre eigene Grammatik und Struktur, was sie von gesprochener Sprache unterscheidet. Die Gehörlosengemeinde nutzt Gebärdensprache, um zu interagieren und zu sozialisieren. Allerdings gibt es weltweit etwa 466 Millionen Menschen mit Hörverlust, und es ist wichtig, die Kommunikationslücke zu schliessen. Die automatische Gebärdensprache-Erkennung hat in der Forschung an Bedeutung gewonnen und konzentriert sich auf zwei Aufgaben: isolierte Gebärdensprache-Erkennung und kontinuierliche Gebärdensprache-Erkennung.

Bei der isolierten Gebärdensprache-Erkennung geht es darum, einzelne Zeichen zu identifizieren, während die kontinuierliche Erkennung sich mit dem Erkennen von Gebärdensäulen beschäftigt. In diesem Papier liegt der Fokus auf der isolierten Zeichenerkennung, die entscheidend für den Aufbau effizienter Systeme ist. Derzeit sind Datensätze für ISL begrenzt, was die Entwicklung robuster Erkennungsmodelle erschwert.

Herausforderungen bei der ISL-Erkennung

Die Gebärdensprache-Erkennung steht vor mehreren Herausforderungen, die sie von der allgemeinen Aktionsauffassung unterscheiden. Dazu gehören unscharfe Grenzen zwischen verschiedenen Zeichen, Verdeckungen von Körperteilen und Variationen in der Art und Weise, wie unterschiedliche Menschen gebärden. Einzigartige Merkmale von ISL, wie zusammengesetzte Zeichen (die aus zwei oder mehr Komponenten bestehen), machen die Erkennungsaufgabe komplizierter.

Das Dataset, das wir einführen, geht auf diese Herausforderungen ein und bietet eine reichhaltige Ressource zur Entwicklung von Gebärdensprache-Erkennungssystemen. Es umfasst ein grosses Vokabular von Wörtern, die in ISL häufig verwendet werden, aufgezeichnet von einer vielfältigen Gruppe von Signer.

Das neue ISL-Dataset

Unser neues ISL-Dataset umfasst 40.033 Videos, die 2.002 alltägliche Wörter abdecken. Das Dataset enthält 20 Signer (10 Männer und 10 Frauen), was eine ausgewogene Geschlechterverteilung sicherstellt. Die Wörter sind in verschiedene Gruppen basierend auf ihren Bedeutungen kategorisiert, wie zum Beispiel Familienbeziehungen oder Haushaltsgegenstände. Das Dataset ist so strukturiert, dass es keine Überlappungen bei den Signern in Trainings-, Validierungs- und Testsets gibt, sodass jedes Zeichen fair vertreten ist.

Die Videos wurden aus verschiedenen Kamerawinkeln aufgenommen, um unterschiedliche Perspektiven der Zeichen einzufangen. Dieser Multi-View-Ansatz hilft, besser zu verstehen, wie verschiedene Zeichen ausgeführt werden. Ausserdem steht das Dataset für die Forschung zur Verfügung und bietet eine wertvolle Ressource für weitere Studien zur Gebärdensprache-Erkennung.

Vorgeschlagenes Erkennungsmodell

Um das neue Dataset zu nutzen, haben wir ein neuartiges Erkennungsmodell entwickelt, das Hierarchical Windowed Graph Attention Network (HWGAT) heisst. Dieses Modell erfasst die Bewegungen des menschlichen Körpers, indem es eine grafische Darstellung des menschlichen Skeletts verwendet. So funktioniert das Modell:

  1. Skelettgraph-Darstellung: Das Modell beginnt damit, den menschlichen Körper in Bezug auf Schlüsselstellen (Skelettgelenke) darzustellen. Durch die Analyse dieser Punkte kann das Modell Bewegungen verstehen, die verschiedenen Zeichen entsprechen.

  2. Aufmerksamkeitsmechanismus: Das HWGAT-Modell verwendet einen Aufmerksamkeitsmechanismus, der sich auf spezifische Körperteile konzentriert, wenn es Zeichen erkennt. Das hilft, die relevantesten Bewegungen hervorzuheben.

  3. Fenster-Eingabe: Anstatt das gesamte Skelettgraph auf einmal zu verarbeiten, unterteilt das Modell es in kleinere Teile, um sich besser auf spezifische Bewegungen zu konzentrieren, ohne dass andere Körperteile stören.

  4. Temporale Dynamik: Das Modell berücksichtigt auch den Zeitverlauf, indem es Frames so gruppiert, dass die Bewegung über die Zeit erfasst wird. Das hilft beim Erkennen von Zeichen, die sich von einem Frame zum nächsten leicht ändern können.

Insgesamt zielt das HWGAT-Modell darauf ab, die Genauigkeit der Gebärdensprache-Erkennung zu verbessern, indem es die einzigartigen Merkmale der Gebärdensprache berücksichtigt.

Experimentelle Evaluierung

Um unser Dataset und Modell zu überprüfen, wurden umfangreiche Experimente durchgeführt. Die Ziele der Evaluation umfassten:

  • Vergleich des neuen Datasets: Die Leistung des Datasets wurde mit bestehenden ISL-Datensätzen verglichen. Unser Dataset zeigte eine grössere Anzahl an Videos und ein umfangreicheres Vokabular, was seine Stärke in der Ressourcenverfügbarkeit beweist.

  • Test des HWGAT-Modells: Unser neues Modell wurde mit anderen hochmodernen Modellen getestet, sowohl mit dem neuen Dataset als auch mit bekannten Gebärdensprache-Datensätzen. Das HWGAT-Modell übertraf viele bestehende Modelle bei der Erkennung von Zeichen über verschiedene Datensätze hinweg.

Wichtige Erkenntnisse

  • Stärke des Datasets: Das neue Dataset ist reichhaltig und vielfältig und bietet eine wertvolle Ressource zur Entwicklung von ISL-Erkennungssystemen. Sein grösseres Vokabular und die Videokapazität im Vergleich zu früheren Datensätzen zeigen seine Robustheit.

  • Modelleistung: Das HWGAT-Modell zeigte eine bessere Leistung als viele traditionelle Modelle und betont seine Fähigkeit zur Gebärdensprache-Erkennung. Das Feintuning des Modells auf kleineren Datensätzen verbesserte weiter seine Genauigkeit.

Fazit

Die Einführung eines grossangelegten isolierten ISL-Datasets zusammen mit dem HWGAT-Modell stellt einen bedeutenden Fortschritt im Bereich der Gebärdensprache-Erkennung dar. Diese Entwicklung bietet nicht nur ein robustes Werkzeug für Forscher, sondern trägt auch dazu bei, die Kommunikationslücke zwischen der gehörlosen und der hörenden Gemeinschaft zu schliessen.

Die umfassende Natur des Datasets, zusammen mit dem fortschrittlichen Modell, verspricht Fortschritte in der Erkennung und Interpretation von Gebärdensprache in der Zukunft. Es wird erwartet, dass diese Arbeit nicht nur die Forschung zur ISL-Erkennung beschleunigt, sondern auch in Bildungskontexten hilfreich ist, um ISL effektiv zu lehren.

Zukünftige Arbeiten

Zukünftige Anstrengungen werden sich darauf konzentrieren, das Dataset weiter zu verbessern, möglicherweise durch die Einbeziehung weiterer Signer, Zeichen und zusätzlicher Umgebungsvariabilität. Es gibt auch Potenzial, das HWGAT-Modell durch die Integration zusätzlicher Techniken zur Verbesserung der Erkennungsgenauigkeit zu optimieren. Die Zusammenarbeit mit Gebärdensprache-Experten wird sicherstellen, dass die Modelle relevant und auf dem neuesten Stand der sich entwickelnden Gebärdensprache bleiben.

Ausserdem hoffen wir, dass diese Arbeit mehr Forschung zur automatischen Gebärdensprache-Erkennung in anderen Sprachen und Dialekten anregt und somit die Inklusivität für die Gehörlosengemeinde weltweit fördert.

Originalquelle

Titel: Hierarchical Windowed Graph Attention Network and a Large Scale Dataset for Isolated Indian Sign Language Recognition

Zusammenfassung: Automatic Sign Language (SL) recognition is an important task in the computer vision community. To build a robust SL recognition system, we need a considerable amount of data which is lacking particularly in Indian sign language (ISL). In this paper, we introduce a large-scale isolated ISL dataset and a novel SL recognition model based on skeleton graph structure. The dataset covers 2002 daily used common words in the deaf community recorded by 20 (10 male and 10 female) deaf adult signers (contains 40033 videos). We propose a SL recognition model namely Hierarchical Windowed Graph Attention Network (HWGAT) by utilizing the human upper body skeleton graph. The HWGAT tries to capture distinctive motions by giving attention to different body parts induced by the human skeleton graph. The utility of the proposed dataset and the usefulness of our model are evaluated through extensive experiments. We pre-trained the proposed model on the presented dataset and fine-tuned it across different sign language datasets further boosting the performance of 1.10, 0.46, 0.78, and 6.84 percentage points on INCLUDE, LSA64, AUTSL and WLASL respectively compared to the existing state-of-the-art keypoints-based models.

Autoren: Suvajit Patra, Arkadip Maitra, Megha Tiwari, K. Kumaran, Swathy Prabhu, Swami Punyeshwarananda, Soumitra Samanta

Letzte Aktualisierung: 2024-09-27 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.14224

Quell-PDF: https://arxiv.org/pdf/2407.14224

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel