Reconhecendo Comportamentos de Direção Distraída com IA
Um sistema que detecta ações de direção distraída usando análise de vídeo avançada.
Quang Vinh Nguyen, Vo Hoang Thanh Son, Chau Truong Vinh Hoang, Duc Duy Nguyen, Nhat Huy Nguyen Minh, Soo-Hyung Kim
― 10 min ler
Índice
- Desafios no Reconhecimento de Ações
- Nossa Abordagem
- Reconhecimento de Ações: Como Funciona
- Conhecendo a Localização Temporal de Ações
- O Sistema de Reconhecimento de Comportamento de Motorista Distruído
- Reconhecimento de Ações
- Estratégia de Ensemble Multi-visualização
- Pós-Processamento Condicional
- Conjuntos de Dados e Avaliação
- Medidas de Precisão
- Detalhes da Implementação
- Resultados
- Conclusão
- Fonte original
- Ligações de referência
Dirigir distraído é tipo tentar malabarismo enquanto anda de monociclo – não é uma boa ideia. Nos EUA, mais de 3.500 pessoas perdem a vida todo ano porque os motoristas tiram os olhos da estrada pra checar o celular, comer um lanche ou discutir com o GPS. Você pode achar que isso é bastante acidente causado por direção distraída, e você estaria certo. É por isso que os pesquisadores estão mergulhando no mundo dos vídeos de direção naturalista pra ver como os motoristas se comportam quando não estão prestando total atenção. Eles descobriram que usar aprendizado profundo pode ajudar a identificar comportamentos arriscados em tempo real.
Uma das competições mais legais por aí é o AI City Challenge 2024, onde mentes brilhantes se juntam pra trabalhar no reconhecimento de ações de direção distraída. O desafio usa vídeos sintéticos capturados de três câmeras diferentes dentro de um carro. O objetivo? Identificar comportamentos distraídos como digitar ou alcançar alguma coisa no banco de trás antes que as coisas saiam do controle.
Desafios no Reconhecimento de Ações
Infelizmente, detectar direção distraída não é tão fácil. Tem um monte de pesquisa por aí, e enquanto muitos métodos funcionam bem, eles não são perfeitos. O primeiro problema é que o conjunto de dados tem apenas 16 categorias de comportamento, o que não é nada diversificado. É como tentar fazer um smoothie com apenas um tipo de fruta – meio sem graça, né? O segundo problema é que os modelos precisam entender ações de diferentes ângulos de câmera, o que pode ser complicado. Às vezes, é difícil distinguir ações que parecem semelhantes, mas não são iguais.
Além disso, os modelos às vezes se enrolam quando tentam usar semelhança na visualização das ações. Eles ficam confusos e podem confundir as ações, tipo quando você pega sal em vez de açúcar pro seu café.
Por fim, a maioria dos modelos confia demais naquilo que acha que é a resposta correta baseando-se em pontuações de probabilidade, o que pode levar a decisões erradas quando as pontuações estão próximas. É como escolher entre dois gêmeos idênticos – eles parecem tão similares que é de deixar tonto.
Nossa Abordagem
Pra encarar esses desafios, criamos um sistema em três partes pra reconhecer ações de direção distraída. Primeiro, usamos um modelo de aprendizado auto-supervisionado, que parece chique, mas basicamente significa que ele aprende padrões dos dados sem precisar de um professor. Esse modelo consegue identificar comportamentos distraídos em vídeos que mostram motoristas em condições naturais.
Depois, desenvolvemos uma estratégia de ensemble que combina informações das três visões de câmera pra fazer previsões mais precisas. Pense nisso como montar um quebra-cabeça – cada visão da câmera dá um pedaço diferente da imagem, e quando você junta tudo, tem uma visão mais clara do que tá rolando.
Por fim, adicionamos uma etapa de pós-processamento condicional pra refinar ainda mais os resultados. Essa parte verifica as previsões com mais cuidado, ajudando a encontrar as ações e seus períodos de tempo de forma mais precisa.
Reconhecimento de Ações: Como Funciona
O reconhecimento de ações é tudo sobre descobrir o que tá acontecendo em um vídeo. Podemos pensar nisso como dar rótulos pra cada clip baseado nas atividades que vemos. Pesquisadores têm trabalhado duro ao longo dos anos pra melhorar os métodos pra essa tarefa. Eles focam principalmente em usar ferramentas de aprendizado profundo pra classificar vídeos, que é parecido com ensinar um computador a entender e categorizar o que vê.
Diferentes abordagens foram surgindo com o tempo. Alguns métodos focam em analisar quadros individuais, enquanto outros tentam capturar como as coisas mudam ao longo do tempo. Recentemente, modelos avançados usando algo chamado Transformers ganharam popularidade, pois conseguem lidar com dados de vídeo de um jeito inteligente.
Conhecendo a Localização Temporal de Ações
Agora, vamos falar sobre outro aspecto importante: a localização temporal de ações. Esse termo chique se refere a descobrir quando uma ação acontece em um vídeo e quanto tempo dura. Imagine conseguir localizar o momento exato em um filme quando alguém derruba a bebida – é isso que a localização temporal de ações faz.
Tradicionalmente, um método propunha primeiro segmentos de ações e depois identificava a qual categoria cada segmento pertencia. Mas isso pode ser limitante porque assume que os limites da ação permanecem inalterados durante a classificação.
Métodos mais novos combinam a identificação e a localização em um único passo. Isso elimina o problema dos limites fixos e proporciona um processo mais suave. Vários estudos adotaram esse método recentemente, usando tecnologias mais avançadas como Transformers pra extrair representações de vídeo.
O Sistema de Reconhecimento de Comportamento de Motorista Distruído
Nosso sistema projetado pra reconhecer o comportamento de direção distraída tem três componentes principais: reconhecimento de ações, estratégia de ensemble e pós-processamento condicional.
Reconhecimento de Ações
Pra começar, usamos um modelo de reconhecimento de ações baseado em aprendizado auto-supervisionado. Esse modelo analisa vídeos curtos de motoristas e identifica comportamentos distraídos. Coletamos filmagens de motoristas fazendo várias atividades que distraem, como tirar selfies, beliscar lanchinhos ou alcançar algo no banco de trás, que podem causar problemas.
Estratégia de Ensemble Multi-visualização
A próxima parte do nosso sistema lida com a combinação das previsões de diferentes visões de câmera. Isso é crucial porque ângulos diferentes podem fornecer percepções diferentes. Por exemplo, a câmera do painel captura o rosto do motorista, enquanto as câmeras do retrovisor e do lado direito oferecem ângulos alternativos e revelam diferentes ações.
Combinando as previsões, conseguimos ter uma visão mais completa do que tá rolando, o que ajuda a melhorar a precisão. É como ter alguns amigos pra te ajudar a identificar uma celebridade em um lugar cheio – cada um deles pode ver algo que você perdeu!
Pós-Processamento Condicional
Por fim, temos nossos passos de pós-processamento condicional. Essa parte garante que identifiquemos com precisão as ações e determine quando elas ocorrem nos vídeos. Aqui tá como funciona:
-
Mesclagem Condicional: Essa etapa analisa as classes de ação mais prováveis e mescla as semelhantes, filtrando o ruído das previsões incorretas. É tipo um segurança bacana em uma balada decidindo quem entra e quem não entra com base na roupa – apenas as melhores previsões conseguem passar.
-
Decisão Condicional: Essa etapa é tudo sobre escolher os segmentos de tempo mais confiáveis a partir de várias previsões da mesma classe. Por exemplo, se dois segmentos sugerem que alguém tá alcançando algo, isso combina as forças deles pra criar o período de tempo mais preciso.
-
Restaurando Rótulos Faltantes: Às vezes, algumas ações não são detectadas adequadamente. Essa etapa procura por esses rótulos faltantes e tenta restaurá-los, garantindo que tenhamos uma previsão completa em todas as 16 classes de ação.
Conjuntos de Dados e Avaliação
Nosso processo de avaliação se baseia em um conjunto de dados cheio de filmagens de 99 motoristas diferentes. Cada motorista é filmado fazendo 16 atividades distraídas, com gravações capturando tanto direção distraída quanto não distraída. O uso de múltiplas perspectivas de câmera oferece uma visão holística de cada sessão de direção, ajudando os pesquisadores a perceber diversos fatores que distraem.
O AI City Challenge divide os dados em duas partes: um conjunto de treinamento e um conjunto teste. O conjunto de treinamento contém "A1" com rótulos verdadeiros, enquanto o conjunto teste "A2" é pra avaliar o desempenho.
Medidas de Precisão
Pra determinar quão bem nossos modelos funcionam, usamos diferentes métricas. Para reconhecimento de ações, checamos a precisão comparando as etiquetas previstas com as reais. Precisão mais alta significa que fizemos um trabalho melhor.
Para a localização temporal de ações, medimos o quão bem os segmentos de tempo previstos se sobrepõem aos segmentos reais, nos dando uma ideia de quão precisamente estamos localizando as ações.
Detalhes da Implementação
Usamos a estrutura PyTorch pra construir nossos modelos. Essa ferramenta open-source é popular entre pesquisadores pela sua flexibilidade e facilidade de uso. Rodar nossos experimentos exigiu um hardware potente, com duas placas de vídeo RTX 3090 de alto desempenho.
Durante o treinamento, modificamos e sintonizamos nosso modelo pra garantir que obtivéssemos os melhores resultados possíveis. Cortamos cada vídeo de entrada pra uma série de clips curtos de 64 quadros, alimentando-os em nosso modelo, otimizando por 20 épocas pra cada visão de câmera.
Resultados
Ao analisarmos os dados, descobrimos que diferentes visões de câmera oferecem vantagens variadas pra diferentes classes. Por exemplo, a visão do lado direito se saiu bem em reconhecer ações como “controlar o painel” ou “pegar do chão.” A visão do painel funcionou bem pra identificar ações como “beber” e “comer,” enquanto a visão traseira também foi boa pra algumas ações.
Combinando todas essas informações, vimos melhorias na precisão de reconhecimento que deixaram os modelos usando apenas uma visão de câmera pra trás. A combinação é essencial, pois descobrimos que mesmo as melhores visões de câmera individuais não se saíram tão bem sozinhas.
No leaderboard público do AI City Challenge, nosso método ficou em sexto lugar na localização temporal de ações com resultados impressionantes. Conseguimos superar muitos concorrentes enquanto mantivemos perto dos melhores métodos.
Conclusão
Resumindo, criamos um sistema de reconhecimento condicional pra lidar com a localização de comportamentos de direção distraída. Usando um modelo que aprende dos dados, combinando percepções de múltiplas perspectivas de câmera e refinando nossas previsões através de etapas de pós-processamento condicional, conseguimos resultados sólidos. Nossa abordagem não só melhorou a precisão, mas também marcou um passo significativo na compreensão da direção distraída.
No final, podemos estar a caminho de garantir estradas mais seguras ao reconhecer os sinais de direção distraída antes que as coisas tomem um rumo ruim. Quando o assunto é tecnologia, estamos sempre prontos pro próximo desafio, e quem sabe o que vamos descobrir a seguir no mundo da segurança no trânsito!
Título: Rethinking Top Probability from Multi-view for Distracted Driver Behaviour Localization
Resumo: Naturalistic driving action localization task aims to recognize and comprehend human behaviors and actions from video data captured during real-world driving scenarios. Previous studies have shown great action localization performance by applying a recognition model followed by probability-based post-processing. Nevertheless, the probabilities provided by the recognition model frequently contain confused information causing challenge for post-processing. In this work, we adopt an action recognition model based on self-supervise learning to detect distracted activities and give potential action probabilities. Subsequently, a constraint ensemble strategy takes advantages of multi-camera views to provide robust predictions. Finally, we introduce a conditional post-processing operation to locate distracted behaviours and action temporal boundaries precisely. Experimenting on test set A2, our method obtains the sixth position on the public leaderboard of track 3 of the 2024 AI City Challenge.
Autores: Quang Vinh Nguyen, Vo Hoang Thanh Son, Chau Truong Vinh Hoang, Duc Duy Nguyen, Nhat Huy Nguyen Minh, Soo-Hyung Kim
Última atualização: 2024-11-19 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2411.12525
Fonte PDF: https://arxiv.org/pdf/2411.12525
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://support.apple.com/en-ca/guide/preview/prvw11793/mac#:~:text=Delete%20a%20page%20from%20a,or%20choose%20Edit%20%3E%20Delete
- https://www.adobe.com/acrobat/how-to/delete-pages-from-pdf.html#:~:text=Choose%20%E2%80%9CTools%E2%80%9D%20%3E%20%E2%80%9COrganize,or%20pages%20from%20the%20file
- https://superuser.com/questions/517986/is-it-possible-to-delete-some-pages-of-a-pdf-document
- https://github.com/cvpr-org/author-kit