Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Computer Vision und Mustererkennung

Verbesserung der Gebärdenspracheerkennung durch bessere Datensets

Behebung von Überschneidungen bei Signern zur Verbesserung der Genauigkeit der Gebärdensprachenerkennung.

― 6 min Lesedauer


Revamping der DatenbankenRevamping der Datenbankenzur Erkennung vonGebärdensprachebessere Erkennungsgenauigkeit.Unterzeichnerüberschneidungen fürErsatz von
Inhaltsverzeichnis

Die Erkennung von Gebärdensprache bedeutet herauszufinden, ob jemand Gebärdensprache verwendet. Das wird immer wichtiger, besonders bei Videoanrufen und beim Sammeln von Daten, um Systeme zu trainieren, die Gebärdensprache erkennen oder übersetzen. Wir glauben jedoch, dass die aktuellen Datensätze, die zur Testung der Gebärdensprachenerkennung verwendet werden, keine genauen Ergebnisse liefern, weil oft die gleichen Gebärdensprachnutzer in den Trainings- und Testphasen gemischt werden.

Was ist Gebärdensprachenerkennung?

Gebärdensprache ist eine natürliche Sprache, die von der Gehörlosengemeinschaft genutzt wird. Sie umfasst verschiedene Körperbewegungen, um Nachrichten zu vermitteln, einschliesslich Handformen, Gesichtsausdrücke und Körperhaltung. Traditionelle Computersysteme konzentrieren sich hauptsächlich auf gesprochene Sprachen, wodurch Gebärdensprache auf vielen Plattformen weniger sichtbar ist.

Mit der zunehmenden Remote-Arbeit sind Softwarelösungen für Videokonferenzen allgegenwärtig geworden. Diese Programme heben oft den aktiven Sprecher hervor, damit das Publikum sich auf ihn konzentrieren kann. Leider kann es sein, dass ein Gebärdensprachnutzer beim Zeichnen verdeckt wird, was eine effektive Kommunikation erschwert. Um diese Lücke zu schliessen, müssen die Werkzeuge zur Erkennung von Gebärdensprache verbessert werden, damit sie erkennen können, wann jemand gerade zeichnet und wann nicht.

Aktueller Stand der Gebärdensprachenerkennung

Es gibt immer mehr Forschung zur Gebärdensprachenerkennung, aber es bleibt ein herausforderndes Gebiet. Die meisten Systeme, die für die Gebärdensprachenerkennung entwickelt wurden, folgen einem zweistufigen Prozess: Zuerst extrahieren sie wichtige Merkmale aus dem Video, und dann klassifizieren sie das Video als ob es einen Gebärdensprachnutzer enthält oder nicht.

Einige Studien nutzen beispielsweise Modelle, die Videobilder nehmen und Merkmale extrahieren, um festzustellen, ob eine Person gerade zeichnet. Sie haben ziemlich hohe Genauigkeitsraten erzielt, aber bei näherer Betrachtung scheint es, dass diese Ergebnisse möglicherweise nicht zuverlässig sind. Das liegt hauptsächlich daran, dass die gleichen Gebärdensprachnutzer oft sowohl in den Trainings- als auch in den Testphasen auftreten, was zu Überschneidungen führt.

Das Problem mit der Überschneidung von Gebärdensprachennutzern

Wenn wir von "Überschneidung der Gebärdensprachnutzer" sprechen, meinen wir, dass dieselbe Person sowohl in den Trainings- als auch in den Testdatensätzen enthalten sein könnte. Das kann den Eindruck erwecken, dass das System besser funktioniert, als es tatsächlich tut. Wenn ein Modell einen bestimmten Gebärdensprachnutzer während des Trainings gesehen hat, wird es wahrscheinlich gut abschneiden, wenn es im Test auf denselben Gebärdensprachnutzer trifft. Das ist ein Problem, weil es nicht zeigt, wie gut das System bei neuen oder anderen Gebärdensprachnutzern abschneidet.

Um dieses Problem zu veranschaulichen, haben wir zwei grosse Datensätze für die Gebärdensprachenerkennung analysiert: das DGS-Korpus und Signing in the Wild. Beide Datensätze zeigten erhebliche Überschneidungen bei den Gebärdensprachnutzern zwischen den Trainings- und Testgruppen. Wir haben den Einfluss dieser Überschneidung gemessen und bemerkenswerte Rückgänge in der Genauigkeit festgestellt, als wir die Ergebnisse von Datensätzen mit und ohne überlappende Gebärdensprachnutzer verglichen haben.

Vorgeschlagene Lösungen

Um die Bewertung von Systemen zur Gebärdensprachenerkennung zu verbessern, schlagen wir vor, neue Datensätze zu erstellen, die keine Überschneidungen bei den Gebärdensprachnutzern aufweisen. Indem wir sicherstellen, dass ein Gebärdensprachnutzer nur in einem Datensatz (Trainings-, Entwicklungs- oder Testdatensatz) auftaucht, können wir eine realistischere Einschätzung der Leistungsfähigkeit dieser Systeme erreichen.

Für das DGS-Korpus haben wir eine neue Methode entwickelt, um die Daten zu teilen, sodass keine Gebärdensprachnutzer sowohl in den Trainings- als auch in den Testsets vorhanden sind. Diese Anordnung wird dazu beitragen, ein klareres Bild von den Fähigkeiten des Systems zu erhalten. Ähnlich haben wir dasselbe für den Signing in the Wild-Datensatz gemacht.

Prüfung der Datensätze: DGS-Korpus

Das DGS-Korpus ist eine Sammlung von Videos mit deutscher Gebärdensprache, die über 1150 Stunden aufgenommenes Material umfasst. Nur ein Teil dieser Daten ist annotiert, um anzuzeigen, wann das Zeichnen erfolgt. Die bestehenden Aufteilungen des DGS-Korpus deuteten auf eine Mischung von Gebärdensprachnutzern hin, die wir identifiziert und quantifiziert haben.

Durch die Analyse der ursprünglichen Aufteilungen, die von früheren Forschungen vorgeschlagen wurden, fanden wir heraus, dass die gleichen Gebärdensprachnutzer sowohl in den Trainings- als auch in den Testsets auftraten. Wir haben das ursprüngliche Dataset aufgeschlüsselt, um zu zeigen, wie viele Gebärdensprachnutzer zwischen diesen Phasen überlappten. Es war alarmierend festzustellen, dass 88 Gebärdensprachnutzer in den Trainings- und Entwicklungssets häufig waren. Um den Effekt dieser Überschneidung zu demonstrieren, haben wir das ursprüngliche Testset in Teile mit und ohne Überschneidung aufgeteilt.

Analyse des Signing in the Wild-Datensatzes

Der Signing in the Wild-Datensatz besteht aus Videos, die von YouTube gesammelt wurden, mit dem Ziel, eine Vielzahl von Gebärdensprachen und -einstellungen einzubeziehen. Dieser Datensatz enthält auch sowohl gebärdende als auch nicht gebärdende Beispiele, wie Sprechen und andere Aktivitäten.

Ähnlich wie beim DGS-Korpus zeigte der Signing in the Wild-Datensatz, dass Videos von demselben Gebärdensprachnutzer möglicherweise in mehreren Aufteilungen erscheinen, was die Genauigkeit der Ergebnisse verzerrt. Erste Experimente mit den ursprünglichen Aufteilungen deuteten auf eine bessere Leistung aufgrund der Überschneidung hin. Allerdings erwarteten wir bei der Erstellung einer neuen Aufteilung ohne Überschneidung einen Rückgang der Genauigkeit, was eine ehrlichere Leistungsbewertung widerspiegelt.

Clustering von Gebärdensprachnutzern zur besseren Datenverwaltung

Eine der Herausforderungen bei der Arbeit mit dem DGS-Korpus besteht darin, dass es keine Kennzeichnung für die Gebärdensprachnutzer in den Videos gibt. Um dies zu lösen, haben wir eine Methode namens Gesicht-Clusterung verwendet, die ähnliche Gesichter basierend auf extrahierten Merkmalen gruppiert. Mit einem Clusteralgorithmus haben wir Gebärdensprachnutzer identifiziert und basierend auf den Videos, in denen sie erschienen, gruppiert.

Die Ergebnisse zeigten unterschiedliche Genauigkeiten, abhängig von der Anzahl der für die Clusterung verwendeten Bilder. Wir fanden heraus, dass die Verwendung von mehr Bildern zu einer besseren Genauigkeit führte. Dennoch hatten wir immer noch Schwierigkeiten, alle Gebärdensprachnutzer perfekt zu identifizieren.

Fazit

Die Ergebnisse der Analyse der DGS-Korpus und des Signing in the Wild-Datensatzes zeigen, dass die Überschneidung der Gebärdensprachnutzer erheblichen Einfluss auf die Effektivität der Systeme zur Gebärdensprachenerkennung hat. Um die Genauigkeit zu verbessern und eine Generalisierung zu gewährleisten, haben wir neue Datensätze vorgeschlagen, die diese Überschneidung beseitigen.

In Zukunft ist es wichtig, die Überschneidung der Gebärdensprachnutzer zu reduzieren, um faire, verantwortungsvolle und transparente Systeme für die Gebärdensprachenerkennung zu etablieren. Zusätzlich wird die Clusterungsmethode dazu beitragen, die Verwaltung von Gebärdensprachdaten zu verbessern und gleichzeitig Datenschutzbedenken zu berücksichtigen.

Insgesamt können wir durch die Erstellung zuverlässigerer Datensätze und die Bewertung der Leistung der Gebärdensprachenerkennung ohne Überschneidungen bessere Werkzeuge für die Gehörlosengemeinschaft entwickeln und die Zugänglichkeit in verschiedenen Bereichen, insbesondere in der Fernkommunikation, verbessern.

Originalquelle

Titel: On the Importance of Signer Overlap for Sign Language Detection

Zusammenfassung: Sign language detection, identifying if someone is signing or not, is becoming crucially important for its applications in remote conferencing software and for selecting useful sign data for training sign language recognition or translation tasks. We argue that the current benchmark data sets for sign language detection estimate overly positive results that do not generalize well due to signer overlap between train and test partitions. We quantify this with a detailed analysis of the effect of signer overlap on current sign detection benchmark data sets. Comparing accuracy with and without overlap on the DGS corpus and Signing in the Wild, we observed a relative decrease in accuracy of 4.17% and 6.27%, respectively. Furthermore, we propose new data set partitions that are free of overlap and allow for more realistic performance assessment. We hope this work will contribute to improving the accuracy and generalization of sign language detection systems.

Autoren: Abhilash Pal, Stephan Huber, Cyrine Chaabani, Alessandro Manzotti, Oscar Koller

Letzte Aktualisierung: 2023-03-19 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2303.10782

Quell-PDF: https://arxiv.org/pdf/2303.10782

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel