Atteindre la reconnaissance des piétons en temps réel sur des appareils à faible consommation d'énergie

Table des matières

Source originale
Liens de référence

La reconnaissance des piétons est super importante pour plein d'usages comme la sécurité, les voitures autonomes, et même sur des photos aériennes. C'est d'autant plus crucial pour les appareils mobiles où la puissance de calcul est limitée. Cette tâche peut être compliquée à cause des contraintes des petits dispositifs. Dans cet article, on va voir comment on peut réussir à faire de la reconnaissance de piétons en temps réel sur des petits ordis avec peu de puissance de traitement, et faire ça le plus vite possible.

On propose trois méthodes pour aider avec cette tâche sur de petits ordinateurs. La première méthode utilise des techniques améliorées basées sur les Local Binary Patterns (LBP) et un classificateur appelé AdaBoost. La deuxième méthode perfectionne les Histogrammes de Gradients Orientés (HOG) et utilise une machine à vecteurs de support (SVM). La troisième méthode accélère les Réseaux de Neurones Convolutifs (CNN). Nos résultats montrent que les trois méthodes peuvent reconnaître les piétons en temps réel avec plus de 95% de précision et peuvent traiter plus de 5 images par seconde, même sur des systèmes compacts équipés d'un processeur Intel i5 à 1,8 GHz.

La vision par ordinateur, qui aide les machines à "voir", est maintenant utilisée dans de nombreux domaines, y compris la médecine, l'armée, et le divertissement. Reconnaître des gens dans des images et des vidéos est particulièrement important mais aussi assez difficile. Cette tâche touche divers aspects de la vie, des systèmes de sécurité aux maisons intelligentes et même aux robots qui aident les personnes âgées.

Pour les appareils mobiles, il y a des problèmes spécifiques qui rendent la reconnaissance des piétons difficile. Ces appareils ont souvent peu de puissance et d'espace pour le matériel. Par exemple, les drones doivent loger des batteries petites et des ordinateurs compacts, ce qui complique la reconnaissance des piétons en temps réel.

Quand on parle de reconnaître des piétons, on se concentre sur les gens debout ou en train de marcher. La complexité vient du fait qu'une personne peut avoir l'air très différente dans diverses images. Des facteurs comme la pose d'une personne, ses vêtements, les obstructions, et même l'éclairage peuvent changer son apparence dans une image. Un arrière-plan chargé peut aussi embrouiller le processus de reconnaissance. Cette diversité dans l'apparence des gens rend la tâche de reconnaissance des piétons difficile sur des appareils avec peu de puissance de calcul.

Alors que les Réseaux de Neurones Convolutifs (CNN) sont devenus populaires pour la reconnaissance d'objets, ils demandent beaucoup de ressources. Beaucoup d'études existantes ont essayé d'accélérer la reconnaissance des piétons, mais la plupart de ces méthodes dépendent de puissantes unités de traitement graphique (GPU) plutôt que de CPU normaux. Notre travail se concentre sur comment implémenter la reconnaissance des piétons sur des systèmes plus petits et moins puissants.

Dans notre étude, on se concentre sur trois méthodes :

Caractéristiques LBP avec AdaBoost : On a amélioré l'extraction des caractéristiques avec LBP, qui est bon pour capturer les formes et les contours, combiné avec AdaBoost, un classificateur rapide. Cette méthode vise à accélérer le processus de reconnaissance tout en maintenant la précision.
Caractéristiques HOG avec SVM : La technique HOG capture les contours des objets, mais les implémentations traditionnelles peuvent être lentes. On se concentre sur l'optimisation de ce processus et son association avec SVM, qui offre une bonne vitesse de reconnaissance et précision.
Implémentation rapide des CNN : On a examiné une version rapide des CNN pour les appliquer dans notre contexte, en améliorant les méthodes qui tournent généralement lentement sur des dispositifs compacts.

Pour tester ces méthodes, on a défini deux conditions principales pour la performance : le système doit fonctionner en temps réel, traitant des images à un minimum de 5 images par seconde, et il doit maintenir un niveau de précision supérieur à 95%.

À travers notre recherche, on a constaté que de nombreuses techniques existantes, bien qu'highly précises, nécessitent des ressources importantes, généralement disponibles uniquement sur des GPU. Certaines solutions intéressantes sont conçues pour fonctionner sur du matériel spécifique fait pour des tâches comme la détection d'objets en temps réel, mais elles ne sont pas adaptées aux dispositifs généraux.

On a soigneusement choisi notre matériel, optant pour un micro-ordinateur Intel NUC compact. Cet appareil trouve un équilibre entre taille, puissance et prix, ce qui le rend adapté à nos besoins. Il a un processeur Intel Core i5 à 1,80 GHz, ce qui est suffisant pour nos tests et permet une portabilité à travers divers systèmes.

Les ensembles de données utilisés pour entraîner et tester nos méthodes incluent l'ensemble de données INRIA des piétons et les ensembles de données Visual Object Classes (VOC), qui contiennent une variété d'images de piétons sous différents angles et poses. On a combiné ces ensembles de données pour créer un système robuste pour tester la reconnaissance des piétons.

En parlant de nos méthodes, on met d'abord en avant les caractéristiques LBP et AdaBoost. Historiquement, le LBP est calculé en comparant des pixels côte à côte. On a adopté une version plus efficace qui accélère ce processus de manière significative tout en restant efficace pour reconnaître les piétons.

Ensuite, on a examiné HOG et SVM. La méthode HOG implique le calcul des gradients entre les pixels, ce qui peut être lent, mais on a optimisé le cache et prétraité les données pour améliorer la vitesse. Cela a impliqué l'ajustement de divers paramètres pour atteindre un bon équilibre entre vitesse et précision.

Pour les CNN, on a transformé nos données en images en niveaux de gris. Cette simplification réduit le traitement nécessaire et aide à accélérer la reconnaissance. Cependant, on a aussi noté que les méthodes existantes avaient certaines limitations, surtout en ce qui concerne la redimensionnement des images. On a examiné comment différentes tailles d'échantillons affectent la reconnaissance et noté la nécessité d'une approche standard.

Dans notre section résultats, on s'est concentré sur deux principaux indicateurs de performance : le nombre de faux positifs par image (FPPI) et le taux de faux négatifs. Ces métriques nous aident à évaluer la précision de nos méthodes de détection des piétons. L'objectif est de minimiser les faux positifs et les reconnaissances manquées pour une détection efficace des piétons.

Après avoir mené nos expériences, on a réalisé que la méthode LBP avec AdaBoost avait globalement le meilleur rendement. Cela était principalement dû à son extraction rapide des caractéristiques et sa classification efficace. Le modèle CNN, bien qu'il soit plus lent, a fourni la plus haute précision, confirmant l'efficacité des approches d'apprentissage profond.

Pour l'avenir, on a plusieurs idées d'améliorations. On prévoit d'optimiser encore davantage les processus, surtout pour les méthodes HOG et SVM, en se concentrant sur la réduction des calculs redondants. En identifiant les caractéristiques les plus significatives pour la reconnaissance des piétons, on pense pouvoir accélérer la vitesse tout en maintenant la précision.

En résumé, notre travail montre avec succès que la reconnaissance des piétons en temps réel est possible sur de petits dispositifs à faible puissance, en utilisant trois méthodes différentes. Chaque méthode a été adaptée pour l'efficacité, leur permettant de fonctionner efficacement dans des scénarios en temps réel. En avançant, on prévoit d'approfondir l'amélioration de ces techniques et d'explorer d'autres moyens d'optimiser leur performance tout en restant applicables à divers appareils mobiles.

Atteindre la reconnaissance des piétons en temps réel sur des appareils à faible consommation d'énergie

Cette étude présente des méthodes pour la reconnaissance des piétons en temps réel avec peu de puissance de traitement.

Liens de référence

Sujets référencés