Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

Présentation de Wake Vision : un nouveau dataset pour TinyML

Wake Vision améliore la détection de personnes pour TinyML avec un énorme jeu de données.

― 9 min lire


Wake Vision : Un changeurWake Vision : Un changeurde jeu TinyMLTinyML.détection de personnes pour les applisNouveau jeu de données booste la
Table des matières

Tiny machine learning (TinyML) utilise la techno smart sur des petits appareils qui consomment très peu d'énergie. Cette techno est censée mieux fonctionner et connecter plus de dispositifs. Un des gros défis pour les chercheurs dans ce domaine, c'est le manque de données de qualité suffisante pour entraîner les modèles. Avoir des gros jeux de données de qualité, c'est super important pour développer des applications TinyML efficaces.

Pour régler ce problème, un nouveau jeu de données appelé Wake Vision a été créé. Ce jeu de données est grand et diversifié, axé sur la Détection de personnes, qui est clé pour les tâches visuelles TinyML. Il contient plus de 6 millions d'images, un sacré bond par rapport aux jeux de données précédents. Wake Vision a été filtré pour la qualité, ce qui aide à améliorer la précision des modèles entraînés dessus. Des tests montrent qu'utiliser ce jeu de données peut donner un coup de boost de 2,41 % en précision par rapport aux standards plus anciens.

En plus de fournir un gros jeu de données, Wake Vision propose cinq ensembles de tests différents. Ces ensembles évaluent comment les modèles se comportent dans différentes conditions, comme l'éclairage, la distance par rapport à la caméra et les caractéristiques des personnes dans les images. Ces benchmarks visent à donner des aperçus sur les performances des modèles dans des scénarios réels, souvent négligés dans les évaluations classiques.

L'Importance de TinyML

TinyML est un domaine en plein essor qui se concentre sur l'utilisation de modèles d'apprentissage automatique sur des appareils avec peu de ressources. Ces appareils, souvent des microcontrôleurs ou des capteurs, ne peuvent pas gérer de gros modèles que les dispositifs traditionnels peuvent. Au lieu de ça, TinyML utilise des modèles petits et efficaces pour surveiller et analyser des données en temps réel sans avoir besoin d'une alimentation constante. Cette capacité peut aider dans d'innombrables applications, des maisons intelligentes à la surveillance de la santé.

Cependant, pour que ces modèles fonctionnent efficacement, les chercheurs ont besoin de gros jeux de données de qualité. Les jeux de données traditionnels sont souvent trop gros ou complexes pour les applications TinyML. Ils contiennent des données qui ne sont pas pertinentes pour les tâches plus simples que les modèles TinyML sont censés gérer. C'est là que Wake Vision entre en jeu.

Aperçu de Wake Vision

Wake Vision est un jeu de données spécifiquement conçu pour la détection de personnes, qui est une tâche courante dans l'analyse visuelle. Le jeu de données comprend des images catégorisées comme contenant une personne ou non. Il est dérivé d'un grand jeu de données existant connu sous le nom d'Open Images, qui est réputé pour sa collection d'images diversifiée.

Les caractéristiques clés de Wake Vision incluent :

  • Grande taille : Avec plus de 6 millions d'images, Wake Vision est 100 fois plus grand que les anciens jeux de données axés sur la détection de personnes.
  • Filtrage de qualité : Les images ont été soigneusement sélectionnées pour s'assurer qu'elles sont utilisables pour entraîner des modèles.
  • Benchmarks : Le jeu de données inclut des ensembles de tests ciblés qui aident à évaluer les performances des modèles dans différentes conditions.

Étant donné sa taille et son design, Wake Vision est une ressource essentielle pour quiconque souhaite développer des applications TinyML axées sur la détection de personnes.

Défis dans la Recherche TinyML

Un des principaux obstacles dans la recherche TinyML est de s'assurer que les modèles peuvent fonctionner efficacement dans des conditions difficiles. Par exemple, les modèles doivent bien performer dans des environnements peu éclairés ou quand les sujets sont loin de la caméra. Les jeux de données classiques ne représentent souvent pas bien ces scénarios, ce qui entraîne des modèles qui fonctionnent mal dans des situations réelles.

De plus, la capacité des appareils TinyML limite la complexité des modèles qui peuvent être utilisés. Cette contrainte rend encore plus crucial d'avoir un jeu de données comme Wake Vision, qui se concentre spécifiquement sur l'amélioration des performances de modèles simples et efficaces.

Détails du Jeu de Données Wake Vision

Collecte et Filtrage des Données

Wake Vision est construit à partir d'images du jeu de données Open Images, qui est connu pour avoir une vaste collection d'images étiquetées. Le processus de création de Wake Vision a impliqué à la fois la sélection d'images et l'attribution d'étiquettes à celles-ci. Chaque image est étiquetée avec "personne" ou "pas de personne" basé sur une vérification humaine et des systèmes automatisés.

Le jeu de données met l'accent sur la qualité plutôt que sur la quantité en incluant deux variations. Un ensemble priorise la taille (Wake Vision Large) tandis que l'autre se concentre sur la qualité des étiquettes (Wake Vision Quality). Les tests montrent que les modèles entraînés sur le jeu de données de qualité performent mieux que ceux entraînés sur le plus grand jeu de données.

Ensemble de Benchmarks Fins

Pour mieux évaluer comment les modèles performent, un ensemble de benchmarks fins a été développé. Ces benchmarks testent la manière dont les modèles détectent des personnes dans diverses conditions. Par exemple, le jeu de données inclut des images de personnes à différentes distances et dans des situations d'éclairage variées.

Les benchmarks couvrent :

  1. Distance : Examine comment les modèles détectent des personnes à diverses distances de la caméra.
  2. Éclairage : Teste la performance dans des conditions d'éclairage faible, normal et lumineux.
  3. Démographie : Évalue la performance des modèles en fonction de l'âge et du genre perçus.

Ces benchmarks permettent aux chercheurs de voir quels aspects de leurs modèles ont besoin d'amélioration avant qu'ils ne soient déployés dans des applications réelles.

Avantages de Wake Vision

La création de Wake Vision offre plusieurs avantages pour le domaine de TinyML :

  • Accessibilité accrue : Les chercheurs peuvent accéder à un grand ensemble d'images étiquetées, ce qui est vital pour les tests et l'entraînement.
  • Concentration sur des conditions réelles : En tenant compte de situations difficiles comme un éclairage faible ou des distances variables, les modèles peuvent être mieux préparés pour un usage réel.
  • Aperçus sur la performance des modèles : Les benchmarks fins fournissent des aperçus nécessaires sur la façon dont les modèles performent, ce qui peut guider les développements futurs.

Détection de Personnes et Son Importance

La détection de personnes est une tâche cruciale dans de nombreuses applications, des systèmes de sécurité à la technologie de maison intelligente. Cela implique de reconnaître si une personne est présente dans une image donnée, ce qui peut être utilisé pour diverses fonctions comme la détection d'occupation et la surveillance.

Cependant, les jeux de données traditionnels incluent souvent beaucoup d'images de haute qualité qui ne représentent pas les situations de tous les jours où la détection de personnes serait appliquée. Ce fossé peut entraîner des modèles qui performent bien dans les évaluations mais échouent dans des environnements réels. Wake Vision relève ce défi en fournissant un jeu de données à la fois plus grand et mieux adapté aux tâches de détection de personnes.

Entraînement et Évaluation des Modèles

Entraînement des Modèles

Lors de l'entraînement des modèles avec Wake Vision, les chercheurs peuvent choisir entre le jeu de données plus grand et le jeu de données axé sur la qualité. S'entraîner sur le jeu de données de qualité donne généralement lieu à un modèle qui performent mieux grâce à la précision améliorée des étiquettes.

Les modèles sont testés à l'aide des benchmarks fins pour comprendre leurs performances dans différents scénarios. Ce test aide à identifier les faiblesses dans le design du modèle et guide le développement futur.

Techniques d'Évaluation

Évaluer les modèles sur la base de métriques traditionnelles peut ne pas suffire, car ces métriques peuvent cacher des problèmes de performance dans des conditions spécifiques. Par exemple, un modèle peut avoir un bon score global mais galérer dans des situations à faible éclairage. Les benchmarks fournis dans Wake Vision aident à évaluer comment les modèles performent dans des applications pratiques.

Considérations Éthiques

Les créateurs de Wake Vision comprennent les implications éthiques de l'utilisation des systèmes de détection de personnes. Bien que ces systèmes aient le potentiel d'applications positives, ils peuvent aussi être mal utilisés. Le jeu de données est conçu pour promouvoir l'équité et la responsabilité dans le développement technologique.

Des efforts sont faits pour s'assurer que les images utilisées sont obtenues de manière éthique, mais il peut encore y avoir des préoccupations liées à la vie privée et à l'utilisation des données. Les benchmarks visent à évaluer comment les modèles performent sans causer de préjudice ou de biais contre des groupes spécifiques.

Conclusion

Wake Vision représente une avancée significative dans le domaine de TinyML en répondant au besoin de gros jeux de données de haute qualité. En se concentrant sur la détection de personnes et les applications réelles, ce jeu de données permet aux chercheurs de développer des modèles qui peuvent mieux performer dans des conditions difficiles.

Avec sa taille, sa qualité et ses benchmarks ciblés, Wake Vision offre non seulement des améliorations directes par rapport aux jeux de données précédents, mais aide aussi à faire avancer le domaine de TinyML. Les aperçus obtenus grâce à ce jeu de données peuvent inspirer des recherches et des développements futurs, garantissant que la technologie TinyML continue de croître et de s'améliorer dans les environnements réels.

Source originale

Titre: Wake Vision: A Tailored Dataset and Benchmark Suite for TinyML Computer Vision Applications

Résumé: Tiny machine learning (TinyML) for low-power devices lacks robust datasets for development. We present Wake Vision, a large-scale dataset for person detection that contains over 6 million quality-filtered images. We provide two variants: Wake Vision (Large) and Wake Vision (Quality), leveraging the large variant for pretraining and knowledge distillation, while the higher-quality labels drive final model performance. The manually labeled validation and test sets reduce error rates from 7.8% to 2.2% compared to previous standards. In addition, we introduce five detailed benchmark sets to evaluate model performance in real-world scenarios, including varying lighting, camera distances, and demographic characteristics. Training with Wake Vision improves accuracy by 1.93% over existing datasets, demonstrating the importance of dataset quality for low-capacity models and dataset size for high-capacity models. The dataset, benchmarks, code, and models are available under the CC-BY 4.0 license, maintained by the Edge AI Foundation.

Auteurs: Colby Banbury, Emil Njor, Andrea Mattia Garavagno, Matthew Stewart, Pete Warden, Manjunath Kudlur, Nat Jeffries, Xenofon Fafoutis, Vijay Janapa Reddi

Dernière mise à jour: 2024-12-09 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.00892

Source PDF: https://arxiv.org/pdf/2405.00892

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires