Simple Science

La science de pointe expliquée simplement

# Informatique # Vision par ordinateur et reconnaissance des formes # Intelligence artificielle

Reconnaître le comportement de conduite distraite avec l'IA

Un système qui détecte les actions de conduite distraite en utilisant une analyse vidéo avancée.

Quang Vinh Nguyen, Vo Hoang Thanh Son, Chau Truong Vinh Hoang, Duc Duy Nguyen, Nhat Huy Nguyen Minh, Soo-Hyung Kim

― 10 min lire


IA pour la détection de IA pour la détection de conduite distraite utilisant l'analyse vidéo. comportements de conduite distraite en Un système pour identifier les
Table des matières

La conduite distraite, c'est un peu comme essayer de jongler en faisant du monocycle – pas trop malin. Aux États-Unis, plus de 3 500 personnes perdent la vie chaque année parce que les conducteurs détournent les yeux de la route pour regarder leur téléphone, manger des burgers ou se disputer avec le GPS. Tu pourrais penser que c'est un tas d'accidents causés par la conduite distraite, et tu aurais raison. C'est pour ça que les chercheurs plongent dans le monde des vidéos de conduite naturalistes pour voir comment les conducteurs se comportent quand ils ne sont pas à 100 % concentrés. Ils ont découvert que l'apprentissage profond peut aider à identifier les comportements à risque en temps réel.

Une des compétitions passionnantes qui existent, c'est l'AI City Challenge 2024, où des esprits brillants se réunissent pour travailler sur la reconnaissance des actions de conduite distraite. Le défi utilise des vidéos synthétiques capturées par trois caméras différentes à l'intérieur d'une voiture. L'objectif ? Repérer les comportements distraits comme envoyer un sms ou tendre la main pour attraper quelque chose à l'arrière avant que ça ne parte en vrille.

Défis de la Reconnaissance d'action

Malheureusement, détecter la conduite distraite, c'est pas si simple. Il y a plein de recherches là-dessus, et même si beaucoup de méthodes fonctionnent plutôt bien, elles ne sont pas parfaites. Le premier problème, c'est que le dataset n’a que 16 catégories de comportement, ce qui n’est pas assez diversifié. C’est un peu comme essayer de faire un smoothie avec un seul type de fruit – c’est un peu chiant, non ? Le deuxième souci, c’est que les modèles doivent identifier les actions sous différents angles de caméra, ce qui peut devenir compliqué. Parfois, c’est difficile de faire la différence entre des actions qui se ressemblent mais ne sont pas tout à fait identiques.

De plus, les modèles rencontrent parfois des problèmes quand ils essaient d’utiliser la similarité dans la visualisation pour les actions. Ils se retrouvent confus et peuvent mélanger les actions, un peu comme quand tu prends accidentellement du sel au lieu de sucre pour ton café.

Enfin, la plupart des modèles s'appuient trop sur ce qu'ils pensent être la bonne réponse basée sur les scores de probabilité, ce qui peut mener à des erreurs quand les scores sont proches. C'est comme choisir entre deux jumeaux identiques – ils se ressemblent tellement, c’est déroutant.

Notre approche

Pour relever ces défis, on a créé un système en trois parties pour reconnaître les actions de conduite distraite. D'abord, on a utilisé un modèle d'apprentissage auto-supervisé, qui a l'air classe mais qui signifie en gros qu'il apprend les motifs à partir des données sans avoir besoin d'un prof. Ce modèle peut reconnaître les comportements distraits à partir de vidéos montrant des conducteurs dans des conditions naturelles.

Ensuite, on a développé une stratégie d'ensemble qui combine les infos des trois vues de caméra pour faire des prévisions plus précises. Pense à ça comme assembler un puzzle – chaque vue de caméra donne un morceau du tableau, et quand tu les mets tous ensemble, tu obtiens une vue plus claire de ce qui se passe.

Enfin, on a ajouté une étape de post-traitement conditionnelle pour affiner encore plus les résultats. Cette partie vérifie les prédictions plus soigneusement, nous aidant à trouver les actions et leurs temps de manière plus précise.

Reconnaissance d'action : Comment ça marche

La reconnaissance d'action, c'est tout à propos de comprendre ce qui se passe dans une vidéo. On peut le voir comme attribuer des étiquettes à chaque clip en fonction des activités qu'on voit. Les chercheurs ont bossé dur au fil des ans pour améliorer les méthodes pour cette tâche. Ils se concentrent principalement sur l'utilisation d'outils d'apprentissage profond pour classifier les vidéos, un peu comme apprendre à un ordinateur à comprendre et à catégoriser ce qu'il voit.

Différentes approches ont été mises en jeu au fil du temps. Certaines méthodes se concentrent sur l'analyse des images individuelles, tandis que d'autres essaient de capturer comment les choses changent avec le temps. Récemment, des modèles avancés utilisant quelque chose appelé Transformers ont gagné en popularité, car ils peuvent gérer les données vidéo de manière intelligente.

Comprendre la localisation temporelle des actions

Maintenant, parlons d'un autre aspect important : la localisation temporelle des actions. Ce terme un peu sophistiqué fait référence à la découverte des moments où une action se produit dans une vidéo et combien de temps elle dure. Imagine ça comme être capable de pointer le moment exact dans un film où quelqu'un renverse sa boisson – c’est ça la localisation temporelle des actions.

Traditionnellement, une méthode proposait d'abord des segments d'action puis identifiait à quelle catégorie chaque segment appartenait. Mais ça peut être limitant parce que ça suppose que les limites de l'action restent inchangées pendant la classification.

Les nouvelles méthodes combinent l'identification et la localisation en une seule étape. Ça élimine le problème des limites fixes et offre un processus plus fluide. Plusieurs études ont récemment adopté cette méthode, utilisant des technologies plus avancées comme les Transformers pour extraire des représentations vidéo.

Le système de reconnaissance de comportement des conducteurs distraits

Notre système conçu pour reconnaître le comportement de conduite distraite a trois composants principaux : reconnaissance d'action, stratégie d'ensemble, et post-traitement conditionnel.

Reconnaissance d'action

Pour commencer, on utilise un modèle de reconnaissance d'action basé sur l'apprentissage auto-supervisé. Ce modèle analyse de courtes vidéos de conducteurs et identifie les comportements distrayants. On collecte des séquences vidéo avec des conducteurs en train de faire diverses activités distrayantes, comme prendre un selfie, grignoter des snacks, ou tendre la main pour attraper quelque chose à l'arrière, ce qui peut causer des problèmes.

Stratégie d'ensemble multi-vue

La prochaine partie de notre système s’occupe de combiner les prédictions des différentes vues de caméra. C’est crucial car les angles différents peuvent fournir des perspectives différentes. Par exemple, la caméra du tableau de bord capture le visage du conducteur, tandis que les caméras rétroviseur et droite offrent d'autres angles et révèlent différentes actions.

En combinant les prédictions, on peut obtenir une image plus complète de ce qui se passe, ce qui aide à améliorer la précision. C’est comme avoir quelques amis qui t’aident à repérer une célébrité dans une pièce bondée – chacun d'eux pourrait voir quelque chose que tu as manqué !

Post-traitement conditionnel

Enfin, on a nos étapes de post-traitement conditionnel. Cette partie s'assure qu'on identifie correctement les actions et qu'on détermine quand elles se produisent dans les vidéos. Voici comment ça fonctionne :

  1. Fusion conditionnelle : Cette étape regarde les classes d'action les plus probables et fusionne celles qui sont similaires, filtrant le bruit des prédictions incorrectes. C’est un peu comme un videur cool à une boîte de nuit qui décide qui entre et qui ne rentre pas selon leur tenue – seules les meilleures prédictions passent.

  2. Décision conditionnelle : Cette étape consiste à choisir les segments temporels les plus fiables parmi diverses prédictions de la même classe. Par exemple, si deux segments suggèrent que quelqu'un tend la main, ça combine leurs forces pour créer le cadre temporel le plus précis.

  3. Restauration des étiquettes manquantes : Parfois, certaines actions ne sont pas détectées correctement. Cette étape recherche ces étiquettes manquantes et essaie de les restaurer, garantissant qu'on a une prédiction complète sur toutes les 16 classes d'action.

Datasets et évaluation

Notre processus d'évaluation repose sur un dataset plein de séquences vidéo de 99 conducteurs différents. Chaque conducteur est filmé en train de faire 16 activités distrayantes, avec des enregistrements capturant à la fois la conduite distraite et non distraite. L'utilisation de plusieurs perspectives de caméra offre une vue holistique de chaque session de conduite, aidant les chercheurs à repérer divers facteurs de distraction.

L'AI City Challenge divise les données en deux parties : un ensemble d'entraînement et un ensemble de test. L'ensemble d'entraînement contient "A1" avec des étiquettes de vérité de terrain, tandis que l'ensemble de test "A2" sert à évaluer les performances.

Mesures de précision

Pour déterminer à quel point nos modèles fonctionnent bien, on utilise différentes métriques. Pour la reconnaissance d'action, on vérifie la précision en comparant les étiquettes prédites avec les étiquettes réelles. Une précision plus élevée signifie qu'on a fait un meilleur boulot.

Pour la localisation temporelle des actions, on mesure à quel point les segments temporels prédits se chevauchent avec les segments réels, ce qui nous donne une idée de notre précision dans la localisation des actions.

Détails de mise en œuvre

On a utilisé le framework PyTorch pour construire nos modèles. Cet outil open-source est populaire parmi les chercheurs pour sa flexibilité et sa facilité d'utilisation. Faire nos expériences a nécessité un matériel sérieux, avec deux cartes graphiques RTX 3090 puissantes.

Pendant l'entraînement, on a modifié et ajusté notre modèle pour s'assurer qu'on obtienne les meilleurs résultats possibles. En réduisant chaque vidéo d'entrée à une série de courts clips de 64 images, on les a nourris dans notre modèle, optimisant sur 20 époques pour chaque vue de caméra.

Résultats

En analysant les données, on a découvert que les différentes vues de caméra offrent des avantages variés pour différentes classes. Par exemple, la vue latérale droite excellait à reconnaître des actions comme "contrôler le panneau" ou "ramasser du sol". La vue tableau de bord était super pour identifier des actions comme "boire" et "manger", tandis que la vue arrière avait aussi quelques atouts.

En combinant toutes ces infos, on a vu des améliorations de la précision de reconnaissance qui ont laissé les modèles utilisant juste une vue de caméra loin derrière. La combinaison est essentielle, car on a découvert que même les meilleures vues de caméra individuelles étaient insuffisantes quand utilisées seules.

Sur le classement public de l'AI City Challenge, notre méthode s'est classée sixième pour la localisation temporelle des actions avec des résultats impressionnants. On a réussi à surpasser de nombreux concurrents tout en restant près des meilleures méthodes.

Conclusion

En résumé, on a créé un système de reconnaissance conditionnelle pour s'attaquer à la localisation du comportement de conduite distraite. En utilisant un modèle qui apprend à partir des données elles-mêmes, en combinant les insights de plusieurs perspectives de caméra, et en affinant nos prévisions via des étapes de post-traitement conditionnelles, on a obtenu des résultats solides. Notre approche a non seulement amélioré la précision mais a aussi marqué une étape importante dans la compréhension de la conduite distraite.

Au final, on est peut-être sur la bonne voie pour garantir des routes plus sûres en reconnaissant les signes de conduite distraite avant que les choses ne tournent mal. En ce qui concerne la technologie, on est toujours prêt pour le prochain défi, et qui sait ce qu'on découvrira ensuite dans le monde de la sécurité routière !

Source originale

Titre: Rethinking Top Probability from Multi-view for Distracted Driver Behaviour Localization

Résumé: Naturalistic driving action localization task aims to recognize and comprehend human behaviors and actions from video data captured during real-world driving scenarios. Previous studies have shown great action localization performance by applying a recognition model followed by probability-based post-processing. Nevertheless, the probabilities provided by the recognition model frequently contain confused information causing challenge for post-processing. In this work, we adopt an action recognition model based on self-supervise learning to detect distracted activities and give potential action probabilities. Subsequently, a constraint ensemble strategy takes advantages of multi-camera views to provide robust predictions. Finally, we introduce a conditional post-processing operation to locate distracted behaviours and action temporal boundaries precisely. Experimenting on test set A2, our method obtains the sixth position on the public leaderboard of track 3 of the 2024 AI City Challenge.

Auteurs: Quang Vinh Nguyen, Vo Hoang Thanh Son, Chau Truong Vinh Hoang, Duc Duy Nguyen, Nhat Huy Nguyen Minh, Soo-Hyung Kim

Dernière mise à jour: 2024-11-19 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2411.12525

Source PDF: https://arxiv.org/pdf/2411.12525

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires