Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas # Som # Processamento de Áudio e Fala

Sistema de áudio inovador melhora a segurança em canteiros de obra

Um novo sistema detecta gritos pra melhorar a segurança dos trabalhadores em canteiros de obras.

Bikalpa Gautam, Anmol Guragain, Sarthak Giri

― 9 min ler


Sistema de áudio aumenta Sistema de áudio aumenta a segurança do local resposta rápida em emergências. Um novo sistema detecta gritos para uma
Índice

Os canteiros de obras são como colmeias caóticas, cheias de atividade, mas também repletos de riscos. Os trabalhadores podem se encontrar em situações perigosas devido a quedas, estruturas que desabam e outros perigos, onde uma ajuda rápida é crucial. Ferramentas de segurança tradicionais, como GPS ou sensores pessoais, podem falhar quando há obstáculos no caminho, especialmente dentro de prédios. Este artigo fala sobre um sistema inteligente que escuta gritos para descobrir onde um trabalhador está em apuros em um canteiro de obras, mesmo quando há muito barulho ao redor.

Por que ouvir gritos?

Imagina um trabalhador preso embaixo de uma pilha de materiais, gritando por ajuda. A capacidade de detectar gritos pode ser um divisor de águas. Embora muitos trabalhadores usem dispositivos para alertar as equipes durante emergências, eles podem se danificar facilmente ou se tornar ineficazes. A Detecção de Som, especialmente de gritos, pode ser uma alternativa confiável. Mas detectar um grito em meio ao barulho de máquinas e vozes pode ser complicado. Os esforços anteriores se concentraram principalmente em sons altos, em vez de gritos humanos, levando a muitos alarmes falsos quando as máquinas faziam barulho.

Os métodos antigos não estão funcionando

Historicamente, os sistemas de segurança para trabalhadores dependiam de melhorias em equipamentos de proteção pessoal e dispositivos vestíveis. Mas tem desvantagens. O GPS geralmente falha dentro de prédios ou quando o trabalhador está cercado por obstáculos. Sensores podem quebrar ou parar de funcionar durante um acidente. Usar sons para alertar outros tem potencial, mas os métodos passados lutaram com o barulho de fundo e a Localização dos sinais de socorro.

O barulho das máquinas muitas vezes torna difícil saber se um grito é genuíno ou apenas o motor roncando. Abordagens que detectam sons gerais têm levado a alarmes falsos intermináveis, distraindo as equipes de verdadeiras emergências. As técnicas anteriores de localização de som muitas vezes erravam o alvo, especialmente em ambientes onde o som se misturava ou refletia em superfícies.

Nova tecnologia a caminho

Desenvolvimentos recentes em tecnologia trazem esperança. Avanços em aprendizado de máquina levaram a formas mais inteligentes de reconhecer sons específicos, incluindo gritos. Alguns modelos novos conseguem identificar padrões únicos de barulho e mostraram potencial em condições barulhentas. Nós decidimos usar esses novos modelos para criar um sistema mais eficaz que possa detectar sinais de socorro em tempo real.

Além disso, as técnicas de localização melhoraram, permitindo um mapeamento mais preciso das fontes sonoras. Combinando esses novos sistemas de reconhecimento de som com métodos aprimorados para descobrir de onde um som vem, podemos criar uma ferramenta poderosa de segurança para canteiros de obras.

Apresentando nossa solução

Nosso novo sistema junta o que há de mais recente em aprendizado de máquina para detectar gritos e descobrir sua localização usando pistas sonoras. Essa tecnologia foca em tornar os canteiros de obras mais seguros, sendo mais confiável do que os métodos antigos.

Como funciona

  1. Montando o cenário: Microfones de alta qualidade são espalhados pelo canteiro de obras para capturar sons continuamente. Esses microfones escutam sinais de perigo a qualquer hora.

  2. Ouvindo o desespero: A cada 10 segundos, os microfones capturam um curto clipe de áudio de 10 segundos, garantindo um fluxo constante de sons para analisar.

  3. Processando o som: O áudio passa por algumas modificações para garantir que seja consistente para análise. Depois, é dividido em pedaços menores para exame.

  4. Reconhecendo o grito: Um modelo de som inteligente verifica o áudio em busca de gritos misturados com o barulho usual da construção. Se ouvir um, o sistema imediatamente começa a descobrir de onde veio.

  5. Localizando a fonte: O sistema calcula a diferença de tempo entre quando o som chega a diferentes microfones para determinar a localização do grito. Um algoritmo especial ajuda nesse processo, tornando-o robusto contra ecos e outros sons confusos.

  6. Resposta rápida: Assim que o sistema descobre de onde veio o grito, ele pode alertar as equipes certas para correr e ajudar rapidamente.

Se o sistema perder um grito que um humano poderia ouvir, há um plano B. Ele vai confirmar com verificações manuais antes de tentar localizar a fonte usando os métodos mencionados anteriormente.

Nossa configuração de teste para detecção de gritos

Para ver como nossa detecção de gritos funciona, testamos contra outros sistemas tradicionais de detecção de som.

Os dados que usamos

Misturamos dois arquivos de som de gritos disponíveis na internet para criar nosso conjunto de dados. No total, tivemos 6.621 clipes de áudio. Desses, 2.445 eram gritos, representando 37% do conjunto de dados, enquanto 63% eram sons que não eram gritos. As gravações duravam em média 6,41 segundos, com alguns clipes chegando até a 10 segundos.

Testando diferentes métodos

Para medir quão bem nosso sistema funcionou, o colocamos lado a lado com alguns métodos padrão para ver qual era melhor em reconhecer gritos. Para nossos testes, usamos vários classificadores, que são como diferentes algoritmos que ajudam a identificar padrões nos dados.

Aqui está uma lista de alguns deles:

  • Classificador de Vetores de Suporte (SVC): Um método que cria limites para separar classes.

  • Regressão Logística (LR): Este calcula probabilidades para determinar se um som é um grito ou não.

  • Floresta Aleatória: Usa várias árvores de decisão para melhorar a precisão.

  • K-Vizinhos Mais Próximos (KNN): Observa amostras próximas para prever rótulos.

  • Perceptron de Múltiplas Camadas (MLP): Uma rede neural que ajuda a capturar padrões sonoros complicados.

Também incluímos alguns mais novos, como XGBoost e LightGBM, que são projetados para lidar com dados mais rapidamente.

Treinando e avaliando nossos modelos

Cada classificador aprendeu com 80% dos dados, deixando os 20% restantes para testar quão bem eles poderiam detectar gritos. É como dar a eles uma rodada de prática antes do teste real. Medimos o desempenho com base na precisão, precisão (com que frequência o sistema estava certo), recall (quantos gritos reais ele capturou) e a F1-score, que equilibra precisão e recall.

Comparando o desempenho

Depois de testar todos esses métodos, o novo modelo que combinou Wav2Vec2 para características de som com um ConvNet Aprimorado alcançou uma impressionante precisão de 91%. Os outros modelos, embora úteis, variaram de 77% a 85%, mostrando que nossa abordagem foi muito mais eficaz em distinguir entre gritos e ruídos da construção.

O efeito do desbalanceamento de classes

Um desafio que apareceu foi o desbalanceamento de classes. A F1-score para sons que não eram gritos foi maior do que para gritos, provavelmente devido a mais amostras de sons não gritos no conjunto de dados. Melhorias futuras poderiam se concentrar em adicionar mais amostras de gritos ou usar técnicas para equilibrar melhor as classes.

Estimativa de posição: sabendo para onde ir

Não só nosso sistema detecta gritos, mas também descobre de onde eles vêm. A tecnologia usa um método chamado Diferença de Tempo de Chegada (TDOA) para fazer isso, medindo quanto tempo leva para o som chegar a diferentes microfones.

Noções básicas do TDOA

Em canteiros de obras bagunçados, o som pode refletir, tornando difícil saber de onde veio. É aí que entra a Correlação Cruzada Generalizada com Transformada de Fase (GCC-PHAT). Ela se concentra nas informações de fase do som, ajudando a reduzir o ruído e as reflexões que podem confundir métodos antigos.

O processo de cálculo

Usando as estimativas de TDOA do nosso sistema, podemos determinar a fonte do som. Esse processo é ajustado por meio de uma abordagem de otimização que ajusta a posição estimada até que corresponda à localização esperada com base nas distâncias entre os microfones.

Por que o Gradiente Descendente?

Para melhorar a precisão, usamos uma técnica chamada gradiente descendente, que ajusta iterativamente a posição estimada com base nas diferenças calculadas entre o que esperamos e o que medimos. Isso ajuda o sistema a se adaptar às reflexões complicadas comuns em ambientes de construção.

Visualização de dados: vendo o som

Nosso sistema não funciona em silêncio. Podemos visualizar como o som viaja em tempo real, fornecendo informações sobre de onde vêm os gritos. Isso ajuda os atendentes a entender melhor a situação e correr para o lugar certo.

Conclusão: um futuro sonoro para a segurança na construção

A combinação de detecção de gritos em tempo real e localização traz um grande avanço nas medidas de segurança para canteiros de obras. Nossa abordagem, que foca na detecção de áudio, aborda efetivamente as limitações enfrentadas com dispositivos vestíveis e GPS. Embora desafios permaneçam na melhoria da detecção sob barulhos extremos e na manutenção da precisão, os resultados iniciais mostram grande promessa.

Conforme continuamos a aprimorar essa tecnologia, seu potencial se espalha além dos canteiros de obras, abrindo portas para uso em outras indústrias de alto risco. Mas também devemos garantir que a privacidade dos trabalhadores seja respeitada.

Em resumo, esse sistema baseado em áudio abre caminho para soluções de segurança mais inteligentes que poderiam mudar como lidamos com emergências em vários setores ao redor do mundo. Então, enquanto esperamos por menos gritos, estaremos prontos para ouvir quando acontecerem!

Fonte original

Título: Real-Time Scream Detection and Position Estimation for Worker Safety in Construction Sites

Resumo: The construction industry faces high risks due to frequent accidents, often leaving workers in perilous situations where rapid response is critical. Traditional safety monitoring methods, including wearable sensors and GPS, often fail under obstructive or indoor conditions. This research introduces a novel real-time scream detection and localization system tailored for construction sites, especially in low-resource environments. Integrating Wav2Vec2 and Enhanced ConvNet models for accurate scream detection, coupled with the GCC-PHAT algorithm for robust time delay estimation under reverberant conditions, followed by a gradient descent-based approach to achieve precise position estimation in noisy environments. Our approach combines these concepts to achieve high detection accuracy and rapid localization, thereby minimizing false alarms and optimizing emergency response. Preliminary results demonstrate that the system not only accurately detects distress calls amidst construction noise but also reliably identifies the caller's location. This solution represents a substantial improvement in worker safety, with the potential for widespread application across high-risk occupational environments. The scripts used for training, evaluation of scream detection, position estimation, and integrated framework will be released at: https://github.com/Anmol2059/construction_safety.

Autores: Bikalpa Gautam, Anmol Guragain, Sarthak Giri

Última atualização: 2024-11-05 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2411.03016

Fonte PDF: https://arxiv.org/pdf/2411.03016

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes