Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale

Presentiamo Wake Vision: un nuovo dataset per TinyML

Wake Vision migliora il rilevamento delle persone per TinyML con un vasto dataset.

― 7 leggere min


Wake Vision: UnWake Vision: Uncambiamento di gioco perTinyMLapplicazioni TinyML.riconoscimento delle persone per leNuovo dataset potenzia il
Indice

Tiny machine learning (TinyML) usa tecnologia smart su dispositivi piccoli che consumano pochissima energia. Questa tecnologia è pensata per funzionare meglio e connettere più dispositivi. Una delle sfide principali che i ricercatori affrontano in questo campo è la mancanza di dati buoni a sufficienza per addestrare i modelli. Avere set di dati grandi e di alta qualità è fondamentale per sviluppare applicazioni TinyML efficaci.

Per affrontare questo problema, è stato creato un nuovo set di dati chiamato Wake Vision. Questo set è grande e variegato, incentrato sulla rilevazione di persone, che è chiave per i compiti visivi di TinyML. Include oltre 6 milioni di immagini, un grande aumento rispetto ai set di dati precedenti. Wake Vision è stato filtrato per qualità, il che aiuta a migliorare l'accuratezza dei modelli addestrati su di esso. I test mostrano che utilizzare questo set di dati può ottenere un incremento dell'accuratezza del 2,41% rispetto agli standard più vecchi.

Oltre a fornire un grande set di dati, Wake Vision offre cinque diversi set di test. Questi set valutano quanto bene i modelli funzionano in diverse condizioni, come illuminazione, distanza dalla camera e caratteristiche delle persone nelle immagini. Questi Benchmark mirano a dare indicazioni sulle prestazioni dei modelli in scenari reali, che spesso vengono trascurati nelle valutazioni tipiche.

L'importanza di TinyML

TinyML è un campo in crescita che si concentra sull'uso di modelli di machine learning su dispositivi con risorse limitate. Questi dispositivi, spesso microcontrollori o sensori, non possono gestire modelli grandi come quelli dei dispositivi tradizionali. Invece, TinyML usa modelli piccoli ed efficienti per monitorare e analizzare i dati in tempo reale senza bisogno di un'alimentazione continua. Questa capacità può aiutare in innumerevoli applicazioni, dalle case smart al monitoraggio della salute.

Tuttavia, per far funzionare efficacemente questi modelli, i ricercatori hanno bisogno di set di dati grandi e di alta qualità. I set di dati tradizionali sono spesso troppo grandi o complessi per le applicazioni TinyML. Inclusi dati che non sono rilevanti per i compiti più semplici che i modelli TinyML devono gestire. Qui entra in gioco Wake Vision.

Panoramica di Wake Vision

Wake Vision è un set di dati progettato specificamente per la rilevazione di persone, un compito comune nell'analisi visiva. Il set di dati include immagini categorizzate come contenenti o meno una persona. È derivato da un grande set di dati esistente noto come Open Images, famoso per la sua collezione di immagini diversificate.

Le caratteristiche chiave di Wake Vision includono:

  • Grande dimensione: Con oltre 6 milioni di immagini, Wake Vision è 100 volte più grande dei set di dati precedenti focalizzati sulla rilevazione di persone.
  • Filtraggio di qualità: Le immagini sono state attentamente selezionate per garantire che siano utilizzabili per l'addestramento dei modelli.
  • Benchmark: Il set di dati include set di test mirati che aiutano a valutare le prestazioni dei modelli in diverse condizioni.

Data la sua dimensione e progettazione, Wake Vision è una risorsa fondamentale per chiunque voglia sviluppare applicazioni TinyML focalizzate sulla rilevazione di persone.

Sfide nella ricerca TinyML

Uno degli ostacoli principali nella ricerca TinyML è garantire che i modelli possano funzionare efficacemente in condizioni difficili. Ad esempio, i modelli devono funzionare bene in ambienti con poca luce o quando i soggetti sono lontani dalla camera. I set di dati normali spesso non rappresentano bene questi scenari, portando a modelli che funzionano male in situazioni reali.

Inoltre, la capacità dei dispositivi TinyML limita la complessità dei modelli che possono essere utilizzati. Questa limitazione rende ancora più critico avere un set di dati come Wake Vision, che si concentra specificamente sul miglioramento delle prestazioni di modelli semplici ed efficienti.

Dettagli del set di dati Wake Vision

Raccolta e filtraggio dei dati

Wake Vision è costruito su immagini del set di dati Open Images, noto per avere una vasta collezione di immagini etichettate. Il processo di creazione di Wake Vision ha coinvolto sia la selezione delle immagini che l'assegnazione delle etichette. Ogni immagine è etichettata come contenente "una persona" o "nessuna persona" basata su verifica umana e sistemi automatizzati.

Il set di dati enfatizza la qualità rispetto alla quantità includendo due variazioni. Un set dà priorità alla dimensione (Wake Vision Large) mentre l'altro si concentra sulla qualità delle etichette (Wake Vision Quality). I test mostrano che i modelli addestrati sul set di dati di qualità performano meglio rispetto a quelli addestrati sul set più grande.

Suite di benchmark fine-grained

Per valutare meglio le prestazioni dei modelli, è stata sviluppata una serie di benchmark fine-grained. Questi benchmark testano quanto bene i modelli rilevano persone in diverse condizioni. Ad esempio, il set di dati include immagini di persone a diverse distanze e in situazioni di illuminazione differenti.

I benchmark coprono:

  1. Distanza: Esamina quanto bene i modelli rilevano persone a varie distanze dalla camera.
  2. Illuminazione: Testa le prestazioni in condizioni di scarsa, normale e alta illuminazione.
  3. Demografia: Valuta le prestazioni dei modelli in base all'età percepita e al genere.

Questi benchmark permettono ai ricercatori di vedere quali aspetti dei loro modelli necessitano di miglioramenti prima di essere utilizzati in applicazioni reali.

Vantaggi di Wake Vision

La creazione di Wake Vision offre diversi vantaggi per il campo TinyML:

  • Accessibilità aumentata: I ricercatori possono accedere a un grande set di immagini etichettate, fondamentale per testare e addestrare.
  • Focus su condizioni reali: Considerando situazioni difficili come bassa illuminazione o distanze variabili, i modelli possono essere meglio preparati per l'uso effettivo.
  • Indicazioni sulle prestazioni dei modelli: I benchmark fine-grained forniscono indicazioni necessarie su quanto bene i modelli funzionano, che possono guidare sviluppi futuri.

Rilevazione di persone e la sua importanza

La rilevazione di persone è un compito cruciale in molte applicazioni, dai sistemi di sicurezza alla tecnologia per case smart. Comporta il riconoscimento della presenza di una persona in un'immagine data, che può essere utilizzato per varie funzioni come la rilevazione di occupazione e il monitoraggio.

Tuttavia, i set di dati tradizionali spesso includono molte immagini di alta qualità che non rappresentano le situazioni quotidiane in cui si applica la rilevazione di persone. Questo divario può portare a modelli che performano bene nelle valutazioni ma falliscono in ambienti reali. Wake Vision affronta questa sfida fornendo un set di dati che è sia più grande che meglio adattato ai compiti di rilevazione di persone.

Addestramento e valutazione dei modelli

Addestramento del modello

Quando si addestrano modelli usando Wake Vision, i ricercatori possono scegliere tra il set di dati più grande e quello focalizzato sulla qualità. L'addestramento sul set di dati di qualità di solito porta a un modello migliore grazie all'accuratezza migliorata delle etichette.

I modelli vengono testati usando i benchmark fine-grained per capire le loro prestazioni in diversi scenari. Questo testing aiuta a identificare debolezze nel design del modello e guida ulteriori sviluppi.

Tecniche di valutazione

Valutare i modelli basandosi su metriche tradizionali potrebbe non essere sufficiente, poiché queste metriche possono nascondere problemi di prestazione in determinate condizioni. Ad esempio, un modello potrebbe ottenere un punteggio alto in generale ma avere difficoltà in situazioni di bassa illuminazione. I benchmark forniti in Wake Vision aiutano a valutare quanto bene i modelli performano in applicazioni pratiche.

Considerazioni etiche

I creatori di Wake Vision comprendono le implicazioni etiche dell'uso di sistemi di rilevazione di persone. Sebbene questi sistemi possano avere applicazioni positive, possono anche essere abusati. Il set di dati è progettato per promuovere equità e responsabilità nello sviluppo della tecnologia.

Si fanno sforzi per garantire che le immagini usate siano ottenute eticamente, ma potrebbero ancora esserci preoccupazioni relative alla privacy e all'uso dei dati. I benchmark mirano a valutare quanto bene i modelli funzionano senza causare danni o pregiudizi contro gruppi specifici.

Conclusione

Wake Vision rappresenta un significativo avanzamento nel campo di TinyML affrontando la necessità di set di dati grandi e di alta qualità. Concentrandosi sulla rilevazione di persone e su applicazioni nel mondo reale, questo set di dati consente ai ricercatori di sviluppare modelli che possono performare meglio in condizioni difficili.

Con la sua dimensione, qualità e benchmark mirati, Wake Vision non solo offre miglioramenti diretti rispetto ai set di dati precedenti ma aiuta anche a far progredire il campo di TinyML. Le intuizioni ottenute da questo set di dati possono ispirare future ricerche e sviluppi, garantendo che la tecnologia TinyML continui a crescere e migliorare negli ambienti reali.

Fonte originale

Titolo: Wake Vision: A Tailored Dataset and Benchmark Suite for TinyML Computer Vision Applications

Estratto: Tiny machine learning (TinyML) for low-power devices lacks robust datasets for development. We present Wake Vision, a large-scale dataset for person detection that contains over 6 million quality-filtered images. We provide two variants: Wake Vision (Large) and Wake Vision (Quality), leveraging the large variant for pretraining and knowledge distillation, while the higher-quality labels drive final model performance. The manually labeled validation and test sets reduce error rates from 7.8% to 2.2% compared to previous standards. In addition, we introduce five detailed benchmark sets to evaluate model performance in real-world scenarios, including varying lighting, camera distances, and demographic characteristics. Training with Wake Vision improves accuracy by 1.93% over existing datasets, demonstrating the importance of dataset quality for low-capacity models and dataset size for high-capacity models. The dataset, benchmarks, code, and models are available under the CC-BY 4.0 license, maintained by the Edge AI Foundation.

Autori: Colby Banbury, Emil Njor, Andrea Mattia Garavagno, Matthew Stewart, Pete Warden, Manjunath Kudlur, Nat Jeffries, Xenofon Fafoutis, Vijay Janapa Reddi

Ultimo aggiornamento: 2024-12-09 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2405.00892

Fonte PDF: https://arxiv.org/pdf/2405.00892

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili