Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Processamento de Áudio e Fala

Desafios na Transcrição de Comunicações de Rádio da Polícia

Pesquisas mostram as dificuldades no reconhecimento de fala das transmissões de rádio da polícia.

Tejes Srivastava, Ju-Chieh Chou, Priyank Shroff, Karen Livescu, Christopher Graziul

― 9 min ler


Transcrevendo Rádio daTranscrevendo Rádio daPolícia: Um Desafiopolícia.de reconhecimento de fala da rádio daEstudo revela dificuldades com sistemas
Índice

As delegacias de polícia ao redor do mundo dependem de rádios de duas vias para suas operações. Essas comunicações de rádio, conhecidas como comunicações policiais de transmissão (BPC), dão insights importantes sobre o trabalho diário da polícia e as respostas a emergências. Mas, essas comunicações normalmente não são registradas, o que dificulta a Transcrição automática das palavras faladas pelos computadores por causa dos sons naturais do dia a dia.

Para resolver isso, uma coleção de cerca de 62.000 transmissões de rádio foi reunida, totalizando cerca de 46 horas de áudio. Essa coleção serve para testar como os modelos modernos de Reconhecimento de Fala funcionam com esse tipo de áudio. Vários reconhecedores de fala foram testados, alguns projetados para uso geral e outros especificamente ajustados para esse tipo de comunicação policial. Os resultados mostram que tanto humanos quanto máquinas acham difícil transcrever com precisão essas comunicações. Enquanto modelos comerciais grandes tiveram dificuldades, aqueles ajustados para comunicações de rádio policiais alcançaram resultados mais próximos do desempenho humano.

Um aspecto significativo do uso de rádios policiais é a sua singularidade. Oficiais e dispatchers costumam usar frases curtas e códigos específicos, dificultando a tradução precisa por reconhecedores de fala gerais. Apesar de serem eficazes em outros contextos, esses modelos geralmente falham ao enfrentar as nuances da comunicação policial. Essa pesquisa destaca áreas potenciais para exploração futura, como as mal-entendidos que podem ocorrer durante interações de rádio policiais.

Nos últimos anos, o interesse em estudar a linguagem policial, especialmente nos Estados Unidos, cresceu. Esse interesse é parcialmente devido a demandas públicas por melhor responsabilidade em relação às ações da polícia e preocupações sobre preconceito racial em encontros policiais. Estudos anteriores se concentraram na linguagem durante interações diretas entre a polícia e membros da comunidade, especialmente durante paradas de trânsito, mostrando que há disparidades em como diferentes grupos raciais são tratados.

No entanto, a linguagem usada entre os policiais quando se comunicam entre si, especialmente por meio de rádio, recebeu pouca atenção. Transmissões de rádio de duas vias são uma fonte rica de informação, pois capturam o diálogo entre dispatchers e oficiais sobre incidentes. Entender essa linguagem pode fornecer insights sobre o comportamento da polícia antes de interagirem com o público. Estudos mostraram que essas comunicações de rádio também refletem preconceitos raciais, com foco desproporcional em certos grupos. Infelizmente, muitos desses dados ficaram sem análise porque transcrevê-los manualmente é demorado.

Para expandir o estudo da linguagem de rádio policial, é crucial desenvolver métodos para transcrição e rotulagem de dados. Este estudo tem como objetivo desenvolver esses métodos reunindo e compartilhando um corpus de comunicações de rádio policiais de Chicago, que tem uma das maiores forças policiais dos Estados Unidos. O foco é avaliar como os sistemas de reconhecimento de fala atuais se saem com esse tipo de áudio para entender melhor os desafios.

A história dos rádios policiais remonta à década de 1930. Muitas comunicações de rádio consistem em trocas curtas onde os oficiais confirmam suas identidades antes de repassar informações. Essas trocas frequentemente incluem números de unidade que indicam a área que o oficial está patrulhando e são cruciais para identificar o falante e sua localização. Números são significativos nesse contexto, pois ajudam a fornecer endereços, idades e outros detalhes relevantes.

Outro desafio é que as comunicações de rádio podem interferir umas com as outras. Portanto, é necessário um rigoroso turno entre os falantes. Detalhes sensíveis sobre indivíduos, como nomes e endereços, são frequentemente compartilhados pelo rádio. Embora essas comunicações sejam normalmente acessíveis ao público, ainda contêm informações sensíveis e devem ser tratadas com cuidado, de acordo com as leis locais. Isso significa que os dados coletados podem ser compartilhados com outros pesquisadores sob diretrizes específicas, permitindo mais estudos sobre comunicação policial.

Recentemente, a comunidade de pesquisa mudou seu foco de conjuntos de dados curados para usar o máximo de dados de fala do mundo real possível. Utilizar uma variedade diversificada de dados pode ajudar a criar sistemas de reconhecimento de fala que funcionem em diferentes contextos. No entanto, variações entre diferentes domínios podem levar a uma queda no desempenho. Por exemplo, modelos bem estabelecidos que funcionam bem em fala limpa e preparada podem ter dificuldades significativas ao enfrentar ambientes mais complexos, como conversas em várias partes ou configurações barulhentas.

Neste estudo, focamos nas comunicações de rádio policiais, que apresentam desafios únicos devido ao ruído de fundo, termos específicos e trocas curtas que complicam ainda mais os esforços de reconhecimento. Este domínio compartilha semelhanças com a comunicação de controle de tráfego aéreo, onde o reconhecimento de fala também foi pesquisado. No entanto, os resultados de reconhecimento de fala para controle de tráfego aéreo geralmente são melhores do que os das comunicações policiais, provavelmente devido a diferenças na qualidade do áudio.

O corpus coletado de Chicago inclui transmissões de rádio do Departamento de Polícia de Chicago. Contém várias falas anotadas por múltiplos Anotadores, garantindo uma representação diversa e precisa das comunicações. O conjunto de dados abrange diferentes áreas da cidade, permitindo uma ampla compreensão da linguagem usada em várias circunstâncias.

A coleta de dados envolveu o download de transmissões de rádio de um site acessível ao público onde gravações são arquivadas. Esse esforço resultou em cerca de 80.000 horas de gravações de áudio, com cerca de 46,2 horas sendo transcritas. O processo de transcrição foi minucioso, pois diferentes anotadores estiveram envolvidos, e passos foram tomados para garantir a precisão e consistência das transcrições.

Para garantir qualidade, foram desenvolvidas diretrizes para os anotadores com base em esforços de transcrição preliminares. Pesquisadores discutiram vários desafios enfrentados durante o processo de transcrição, levando a um protocolo bem definido. Anotadores receberam arquivos de áudio e trabalharam para transcrever qualquer fala que encontrassem, tratando cada transmissão como uma declaração separada.

Os transcritores foram instruídos a não baixar áudio e trabalhar em ambientes seguros para proteger a integridade dos dados. Eles estavam cientes da natureza sensível do material e foram instruídos a parar seu trabalho se sentissem desconforto com seu conteúdo.

Se os anotadores não tinham certeza sobre palavras específicas, podiam marcar sua incerteza e indicar segmentos de fala que eram difíceis de entender. Essa prática buscou manter a transparência sobre os desafios enfrentados durante a transcrição. Após a anotação inicial, os dados passaram por uma fase de pós-processamento para corrigir quaisquer erros e normalizar o texto para reconhecimento de fala.

O estudo então avaliou como modelos de reconhecimento de fala prontos para uso se saíram nos dados de rádio policial sem ajustes. Vários modelos diferentes foram testados, incluindo os modelos Whisper e NeMo, que são projetados para fins gerais, mas não foram especificamente adaptados para comunicações policiais.

Os resultados mostraram que os modelos maiores do Whisper tiveram um desempenho melhor do que os menores, mas ainda assim enfrentaram problemas. Por outro lado, os modelos NeMo mostraram sucesso variável com base em seu tipo e configuração. O ajuste fino desses modelos nos dados de rádio policial resultou em melhorias significativas, sugerindo que otimizar modelos especificamente para esse domínio pode aumentar seu desempenho.

Modelos personalizados desenvolvidos para comunicações de rádio policiais também mostraram resultados promissores. Incorporar características específicas para esse domínio melhorou a precisão das transcrições, indicando que ajustes nos parâmetros do modelo e na linguagem podem levar a melhores resultados. O uso de modelos de linguagem melhorou ainda mais o desempenho, mas teve efeitos variados entre os diferentes modelos.

Uma conclusão chave do estudo é que os modelos pré-treinados existentes enfrentam dificuldades com comunicações de rádio policiais. O modelo de melhor desempenho alcançou uma taxa de erro de palavras semelhante à que os anotadores humanos experimentaram, sugerindo que sistemas automáticos estão perto do desempenho humano, mas ainda precisam ser refinados.

No entanto, fatores como qualidade do áudio e comprimento da fala também influenciam o desempenho. Entender essas relações pode ajudar a melhorar sistemas futuros. No geral, essa pesquisa fornece uma base para futuras explorações no reconhecimento automático de fala para comunicações policiais, oferecendo recursos valiosos para estudos em andamento.

Em conclusão, o trabalho destaca a necessidade de métodos eficazes para analisar comunicações de rádio policiais. Ao compartilhar o corpus e as descobertas, o objetivo é fomentar mais pesquisas neste área vital da polícia. Reconhecer os desafios e limitações dos sistemas atuais guiará melhorias futuras e contribuirá para uma melhor compreensão das práticas policiais.

À medida que o cenário da polícia continua a evoluir, as ferramentas e métodos usados para estudar e analisar a comunicação policial também devem evoluir. Esse tipo de pesquisa é essencial para informar políticas e práticas que melhorem a responsabilidade e a eficácia na aplicação da lei.

Fonte original

Título: Speech Recognition for Analysis of Police Radio Communication

Resumo: Police departments around the world use two-way radio for coordination. These broadcast police communications (BPC) are a unique source of information about everyday police activity and emergency response. Yet BPC are not transcribed, and their naturalistic audio properties make automatic transcription challenging. We collect a corpus of roughly 62,000 manually transcribed radio transmissions (~46 hours of audio) to evaluate the feasibility of automatic speech recognition (ASR) using modern recognition models. We evaluate the performance of off-the-shelf speech recognizers, models fine-tuned on BPC data, and customized end-to-end models. We find that both human and machine transcription is challenging in this domain. Large off-the-shelf ASR models perform poorly, but fine-tuned models can reach the approximate range of human performance. Our work suggests directions for future work, including analysis of short utterances and potential miscommunication in police radio interactions. We make our corpus and data annotation pipeline available to other researchers, to enable further research on recognition and analysis of police communication.

Autores: Tejes Srivastava, Ju-Chieh Chou, Priyank Shroff, Karen Livescu, Christopher Graziul

Última atualização: 2024-09-16 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.10858

Fonte PDF: https://arxiv.org/pdf/2409.10858

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes