Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Ton# Audio- und Sprachverarbeitung

Herausforderungen beim Transkribieren von Polizeifunkkommunikationen

Forschung zeigt die Schwierigkeiten bei der Spracherkennung von Polizeifunkübertragungen.

Tejes Srivastava, Ju-Chieh Chou, Priyank Shroff, Karen Livescu, Christopher Graziul

― 7 min Lesedauer


PolizeifunkPolizeifunktranskribieren: EineHerausforderungSpracherkennung von Polizeifunkgeräten.Studie zeigt Schwierigkeiten mit der
Inhaltsverzeichnis

Polizeibehörden auf der ganzen Welt verlassen sich auf Funkgeräte für ihre Einsätze. Diese Funkkommunikationen, bekannt als Broadcast Police Communications (BPC), geben wichtige Einblicke in die tägliche Polizeiarbeit und Notfallreaktionen. Allerdings werden diese Kommunikationen meistens nicht schriftlich festgehalten, was es für Computer schwer macht, die gesprochenen Worte automatisch zu transkribieren, aufgrund ihrer natürlichen, alltäglichen Klänge.

Um dem entgegenzuwirken, wurde eine Sammlung von etwa 62.000 Funksprüchen zusammengestellt, die insgesamt rund 46 Stunden Audio umfasst. Diese Sammlung dient dazu, zu testen, wie gut moderne Spracherkennungsmodelle mit dieser Art von Audio umgehen können. Verschiedene Spracherkenner, einige für den allgemeinen Gebrauch und andere speziell für diese Art der Polizeikommunikation angepasst, wurden getestet. Die Ergebnisse zeigen, dass es sowohl Menschen als auch Maschinen schwerfällt, diese Kommunikationen genau zu transkribieren. Während grosse kommerzielle Modelle Schwierigkeiten hatten, erzielten Modelle, die für Polizeifunksprüche feinjustiert wurden, Ergebnisse, die näher an menschlicher Leistung lagen.

Ein bedeutender Aspekt der Nutzung von Polizeifunkgeräten ist ihre Einzigartigkeit. Beamte und Disponenten verwenden oft kurze Phrasen und spezifische Codes, was es allgemeinen Spracherkennern schwer macht, sie genau zu übersetzen. Trotz ihrer Effektivität in anderen Kontexten scheitern diese Modelle oft, wenn sie mit den Nuancen der Polizeikommunikation konfrontiert werden. Diese Forschung hebt potenzielle Bereiche für zukünftige Erkundungen hervor, wie Missverständnisse während Polizeifunkinteraktionen entstehen können.

In den letzten Jahren hat das Interesse an der Untersuchung der Polizeisprache, insbesondere in den USA, zugenommen. Dieses Interesse ist teilweise auf öffentliche Forderungen nach besserer Rechenschaftspflicht in Bezug auf das Handeln der Polizei und Bedenken bezüglich Rassenvorurteilen bei Polizeibegegnungen zurückzuführen. Frühere Studien konzentrierten sich auf die Sprache während direkter Interaktionen zwischen Polizei und Gemeindemitgliedern, insbesondere während Verkehrskontrollen, und zeigten, dass es Unterschiede gibt, wie verschiedene ethnische Gruppen behandelt werden.

Allerdings hat die Sprache, die unter Polizeibeamten verwendet wird, wenn sie miteinander kommunizieren, insbesondere über Funk, wenig Aufmerksamkeit erhalten. Funkübertragungen sind eine reiche Informationsquelle, da sie den Dialog zwischen Disponenten und Beamten über Vorfälle festhalten. Das Verständnis dieser Sprache kann Einblicke in das Verhalten der Polizei geben, bevor sie mit der Öffentlichkeit interagieren. Studien haben gezeigt, dass diese Funkkommunikationen auch rassistische Vorurteile widerspiegeln, mit überproportionalem Fokus auf bestimmte Gruppen. Leider wurde ein Grossteil dieser Daten nicht analysiert, weil die manuelle Transkription zeitaufwändig ist.

Um das Studium der Polizeifunksprache auszubauen, ist es wichtig, Methoden zur Transkription und Datenlabeling zu entwickeln. Diese Studie zielt darauf ab, diese Methoden zu entwickeln, indem eine Sammlung von Polizeifunkkommunikationen aus Chicago zusammengestellt und geteilt wird, wo eine der grössten Polizeikräfte in den USA existiert. Der Fokus liegt darauf zu bewerten, wie gut aktuelle Spracherkennungssysteme mit dieser Art von Audio umgehen, um die Herausforderungen besser zu verstehen.

Die Geschichte der Polizeifunkgeräte reicht bis in die 1930er Jahre zurück. Viele Funkkommunikationen bestehen aus kurzen Austausch, in denen Beamte ihre Identität bestätigen, bevor sie Informationen weitergeben. Diese Austausche enthalten oft Einheitenummern, die das Gebiet anzeigen, in dem der Beamte patrouilliert, und sind entscheidend für die Identifikation des Sprechers und seines Standorts. Nummern sind in diesem Kontext wichtig, da sie helfen, Adressen, Alter und andere relevante Details bereitzustellen.

Ein weiteres Problem ist, dass Funkkommunikationen sich gegenseitig stören können. Daher ist ein striktes abwechselndes Sprechen unter den Sprechern notwendig. Sensible Details über Personen, wie Namen und Adressen, werden oft über Funk geteilt. Obwohl diese Kommunikationen normalerweise für die Öffentlichkeit zugänglich sind, enthalten sie dennoch sensible Informationen und müssen gemäss den örtlichen Gesetzen sorgfältig behandelt werden. Das bedeutet, dass die gesammelten Daten unter bestimmten Richtlinien mit anderen Forschern geteilt werden können, was weitere Studien zur Polizeikommunikation ermöglicht.

In letzter Zeit hat die Forschungsgemeinschaft ihren Fokus von kuratierten Datensätzen hin zu einer Nutzung von so vielen realen Sprachdaten wie möglich verlagert. Die Nutzung einer Vielzahl von Daten kann helfen, Spracherkennungssysteme zu schaffen, die in verschiedenen Kontexten funktionieren. Allerdings können Unterschiede zwischen verschiedenen Bereichen zu einem Leistungsabfall führen. Zum Beispiel können gut etablierte Modelle, die bei klaren, vorbereiteten Sprachdaten gut abschneiden, erheblich Schwierigkeiten haben, wenn sie mit komplexeren Umgebungen wie Mehrparteiengesprächen oder lauten Umgebungen konfrontiert werden.

In dieser Studie konzentrieren wir uns auf Polizeifunkkommunikationen, die einzigartige Herausforderungen durch Hintergrundgeräusche, spezifische Begriffe und kurze Austausch bieten, die die Erkennungsversuche weiter erschweren. Dieser Bereich teilt Ähnlichkeiten mit der Kommunikation der Luftverkehrskontrolle, in der ebenfalls Forschung zur Spracherkennung betrieben wurde. Allerdings sind die Ergebnisse der Spracherkennung für die Luftverkehrskontrolle allgemein besser als die für Polizeikommunikationen, was wahrscheinlich auf Unterschiede in der Audioqualität zurückzuführen ist.

Das gesammelte Korpus aus Chicago umfasst Funkübertragungen der Chicago Police Department. Es enthält mehrere annotierte Äusserungen von mehreren Annotatoren, was eine vielfältige und akkurate Darstellung der Kommunikationen sicherstellt. Der Datensatz umfasst verschiedene Bereiche der Stadt und ermöglicht ein breites Verständnis der Sprache, die unter verschiedenen Umständen verwendet wird.

Die Datensammlung beinhaltete das Herunterladen von Funkübertragungen von einer öffentlich zugänglichen Seite, auf der Aufnahmen archiviert sind. Dieser Aufwand ergab rund 80.000 Stunden Audiomaterial, von denen etwa 46,2 Stunden transkribiert wurden. Der Transkriptionsprozess war gründlich, da verschiedene Annotatoren beteiligt waren und Schritte unternommen wurden, um die Genauigkeit und Konsistenz der Transkripte sicherzustellen.

Um die Qualität sicherzustellen, wurden Richtlinien für Annotatoren auf der Grundlage vorläufiger Transkriptionsergebnisse entwickelt. Die Forscher diskutierten verschiedene Herausforderungen, die während des Transkriptionsprozesses auftraten, was zu einem klar definierten Protokoll führte. Die Annotatoren erhielten Audio-Dateien und arbeiteten daran, jede gesprochene Äusserung zu transkribieren, wobei jede Übertragung als separate Aussage behandelt wurde.

Transkribierer wurden angewiesen, keine Audio-Dateien herunterzuladen und arbeiteten in sicheren Umgebungen, um die Integrität der Daten zu schützen. Sie waren sich der sensiblen Natur des Materials bewusst und wurden angewiesen, ihre Arbeit einzustellen, wenn sie sich durch den Inhalt gestört fühlten.

Wenn Annotatoren sich bei bestimmten Worten unsicher waren, durften sie ihre Unsicherheit markieren und Abschnitte von Sprache angeben, die schwer verständlich waren. Diese Praxis zielte darauf ab, Transparenz über die Herausforderungen zu wahren, die während der Transkription auftraten. Nach der ersten Annotation durchlief die Daten eine Nachbearbeitungsphase, um Fehler zu korrigieren und den Text für die Spracherkennung zu normalisieren.

Die Studie bewertete dann, wie gut handelsübliche Spracherkennungsmodelle auf Polizeifunkdaten ohne Anpassungen funktionierten. Verschiedene Modelle wurden getestet, darunter Whisper- und NeMo-Modelle, die für allgemeine Zwecke entwickelt wurden, aber nicht speziell für Polizeikommunikationen zugeschnitten waren.

Die Ergebnisse zeigten, dass die grösseren Whisper-Modelle besser abschnitten als die kleineren, aber immer noch Probleme hatten. Andererseits zeigten die NeMo-Modelle je nach Typ und Konfiguration unterschiedliche Erfolge. Das Feintuning dieser Modelle auf die Polizeifunkdaten ergab signifikante Verbesserungen, was darauf hindeutet, dass die Optimierung der Modelle speziell für diesen Bereich deren Leistung steigern kann.

Massgeschneiderte Modelle, die für Polizeifunkkommunikationen entwickelt wurden, zeigten ebenfalls vielversprechende Ergebnisse. Die Integration von Merkmalen, die spezifisch für diesen Bereich sind, verbesserte die Genauigkeit der Transkriptionen, was darauf hindeutet, dass Anpassungen der Modellparameter und der Sprache zu besseren Ergebnissen führen können. Der Einsatz von Sprachmodellen verbesserte die Leistung weiter, hatte jedoch unterschiedliche Auswirkungen auf verschiedene Modelle.

Eine wichtige Erkenntnis der Studie ist, dass bestehende vortrainierte Modelle Schwierigkeiten mit Polizeifunkkommunikationen haben. Das bestplatzierte Modell erreichte eine Wortfehlerrate, die ähnlich dem war, was menschliche Annotatoren erlebten, was darauf hindeutet, dass automatische Systeme nahe an der menschlichen Leistungsfähigkeit sind, aber noch verfeinert werden müssen.

Allerdings beeinflussen auch Faktoren wie Audioqualität und Äusserungslänge die Leistung. Das Verständnis dieser Zusammenhänge kann helfen, zukünftige Systeme zu verbessern. Insgesamt legt diese Forschung eine Grundlage für weitere Erkundungen in der automatischen Spracherkennung für Polizeikommunikationen und bietet wertvolle Ressourcen für laufende Studien.

Zusammenfassend wird die Notwendigkeit effektiver Methoden zur Analyse von Polizeifunkkommunikationen hervorgehoben. Durch das Teilen des Korpus und der Erkenntnisse soll die weitere Forschung in diesem wichtigen Bereich der Polizeiarbeit gefördert werden. Die Herausforderungen und Einschränkungen der aktuellen Systeme zu erkennen, wird zukünftige Verbesserungen leiten und zu einem besseren Verständnis der Polizeipraktiken beitragen.

Während sich die Landschaft der Polizeiarbeit weiterentwickelt, müssen auch die Werkzeuge und Methoden zur Untersuchung und Analyse der Polizeikommunikation angepasst werden. Diese Art von Forschung ist entscheidend, um Richtlinien und Praktiken zu informieren, die die Rechenschaftspflicht und Wirksamkeit in der Strafverfolgung verbessern.

Originalquelle

Titel: Speech Recognition for Analysis of Police Radio Communication

Zusammenfassung: Police departments around the world use two-way radio for coordination. These broadcast police communications (BPC) are a unique source of information about everyday police activity and emergency response. Yet BPC are not transcribed, and their naturalistic audio properties make automatic transcription challenging. We collect a corpus of roughly 62,000 manually transcribed radio transmissions (~46 hours of audio) to evaluate the feasibility of automatic speech recognition (ASR) using modern recognition models. We evaluate the performance of off-the-shelf speech recognizers, models fine-tuned on BPC data, and customized end-to-end models. We find that both human and machine transcription is challenging in this domain. Large off-the-shelf ASR models perform poorly, but fine-tuned models can reach the approximate range of human performance. Our work suggests directions for future work, including analysis of short utterances and potential miscommunication in police radio interactions. We make our corpus and data annotation pipeline available to other researchers, to enable further research on recognition and analysis of police communication.

Autoren: Tejes Srivastava, Ju-Chieh Chou, Priyank Shroff, Karen Livescu, Christopher Graziul

Letzte Aktualisierung: 2024-09-16 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2409.10858

Quell-PDF: https://arxiv.org/pdf/2409.10858

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel