Avanzare nell'IA con modelli specifici per hardware per VPU
Esplorare i vantaggi della Neural Architecture Search per il VPU Movidius di Intel.
― 5 leggere min
Indice
- La Necessità di Modelli Specifici per l'Hardware
- Usare la Ricerca di Architettura Neurale con VPU
- Ricerca di Architettura Neurale Consapevole dell'Hardware
- Profilazione della Latenza
- Implementazione di ProxylessNAS
- Intuizioni per Progettare Reti Amiche del VPU
- Lavori Futuri
- Conclusione
- Fonte originale
- Link di riferimento
La Ricerca di Architettura Neurale (NAS) è un metodo per progettare modelli di intelligenza artificiale in modo automatico. Aiuta a creare modelli che funzionano meglio su hardware specifico, come il Processore per Visione Movidius di Intel (VPU). Questa tecnologia punta a migliorare sia la qualità dei modelli che la loro velocità nel fare previsioni.
I metodi tradizionali spesso creano modelli di AI generali che possono non essere ottimizzati per hardware specifico. Questo può portare a una performance più lenta o a una minore accuratezza. Usando il NAS, possiamo creare modelli che funzionano meglio e più velocemente sul VPU.
La Necessità di Modelli Specifici per l'Hardware
La maggior parte dei modelli di AI è progettata senza considerare l'hardware specifico su cui gireranno. I modelli generali potrebbero non sfruttare appieno le capacità di dispositivi come il VPU di Movidius. Questo crea un’opportunità per progettare modelli che possono elaborare i dati più rapidamente o fornire maggiore accuratezza senza compromettere le prestazioni.
Tuttavia, lo spazio di design delle reti possibili è vasto e complesso, rendendo difficile il design manuale anche per gli esperti.
Usare la Ricerca di Architettura Neurale con VPU
In questo approccio, il NAS viene adattato per il Movidius VPU. È importante misurare quanto tempo impiega il modello a girare sull'hardware. Questo ritardo, noto come Latenza, è incluso nel processo di design. Introduciamo due metodi per misurare la latenza:
- Costo hardware pre-raccolto sul dispositivo: Questo implica usare dati raccolti da misurazioni precedenti sul VPU.
- Modello di costo hardware specifico per il dispositivo (VPUNN): Questo è un modello che stima i costi in base ai parametri hardware specifici.
Sfruttando il NAS, possiamo migliorare le prestazioni delle attività sul VPU. Ad esempio, nei compiti di classificazione, vediamo un incremento della velocità di 1,3 volte rispetto a Mobilenet-v2-1.4 e 2,2 volte più veloce di Resnet50 mantenendo la stessa accuratezza. Per i compiti di super risoluzione, otteniamo un miglioramento della qualità dell'immagine di 1,08 volte e un incremento della velocità di 6 volte rispetto a un modello esistente.
Ricerca di Architettura Neurale Consapevole dell'Hardware
Per ottimizzare direttamente per il VPU, il processo incorpora la latenza nei criteri di design. Questo significa che i design scelti si concentrano sia sulla velocità che sull'accuratezza.
ProxylessNAS è un metodo usato qui per creare modelli senza fare affidamento su passaggi intermedi. Permette una gamma più ampia di scelte di design garantendo che i modelli risultanti siano adatti per l'hardware target. Il metodo ha dimostrato successo su altre piattaforme ed è ora esteso al VPU.
Profilazione della Latenza
Misurare quanto tempo impiega ogni componente di un modello a girare sull'hardware è fondamentale. Le informazioni aiutano a garantire che i modelli scelti non solo funzionino bene in teoria, ma anche in modo efficiente sull'hardware reale.
Misurazione Accurata
Per valutare la latenza, il modo più semplice è eseguire un modello con solo un operatore e misurare quanto tempo impiega. Tuttavia, questo metodo può portare a risultati inconsistenti a causa di altri fattori che possono influenzare il tempo di avvio. Per contrastare questo, si usa una tecnica per impilare più operatori quando hanno lo stesso input e output. Questo approccio minimizza le variazioni e fornisce una misurazione della latenza più stabile.
Usare VPUNN per la Stima
Un altro modo per misurare la latenza è utilizzare VPUNN, un modello basato su rete neurale. Prende pezzi rilevanti di informazioni sui compiti di una rete e prevede quanto tempo ci vorrà per eseguirli. Questo modello ha dimostrato di funzionare bene rispetto ai metodi di misurazione tradizionali.
Implementazione di ProxylessNAS
Combinare ProxylessNAS con i metodi di profilazione della latenza consente la ricerca di reti efficaci su misura per compiti come la classificazione delle immagini e la super risoluzione. I modelli generati tramite questo processo possono essere convertiti in formati adatti per il VPU, conducendo a prestazioni più veloci e accurate.
Risultati della Classificazione delle Immagini
Nei compiti di classificazione, usiamo ProxylessNAS insieme al metodo di profilazione hardware. L'attenzione è rivolta alla costruzione di una rete basata su un blocco costruttivo efficiente noto come MBConv di Mobilenet-v2.
Quando testate sul VPU di Movidius, queste reti hanno ottenuto miglioramenti significativi rispetto ai modelli esistenti. I risultati mostrano un miglioramento della velocità di 1,3 volte rispetto ai modelli stabiliti mantenendo livelli di accuratezza comparabili.
Risultati della Super Risoluzione
Per i compiti di super risoluzione, ProxylessNAS è stato applicato insieme a VPUNN per identificare i migliori modelli. Questi modelli hanno evitato metodi che sono più lenti sul VPU, come certe funzioni di attivazione e tecniche di upsampling. I risultati hanno mostrato un notevole incremento di velocità di 6 volte sul VPU più recente.
Intuizioni per Progettare Reti Amiche del VPU
Dopo aver analizzato i risultati, emergono alcune intuizioni chiave per creare modelli che funzionano bene sul VPU:
- Evitare operazioni che rallentano le prestazioni, come funzioni di attivazione complesse o certe tecniche di upsampling.
- Puntare a una dimensione del canale di output che sia un multiplo di 16, poiché questo aiuta a ottimizzare i calcoli sul VPU.
- Utilizzare convoluzioni separabili in profondità quando possibile, poiché possono raggiungere prestazioni simili con meno tempo di calcolo.
Lavori Futuri
Sebbene i metodi presentati in questo approccio siano efficaci, ci sono ancora sfide, specialmente con design di rete più complessi. I lavori futuri si concentreranno sull'affrontare le limitazioni dei metodi esistenti, in particolare riguardo a come interagiscono i diversi strati e come vengono programmati i compiti.
Lavorando su strumenti e metodi più efficienti per compilare e simulare reti, si possono ottenere ulteriori progressi nell'ottimizzazione dei modelli di AI per hardware come il VPU.
Conclusione
Questa indagine mostra l'importanza di creare modelli consapevoli dell'hardware che possano offrire sia velocità che accuratezza. Applicando metodi come ProxylessNAS e sviluppando strumenti di profilazione della latenza efficaci, i modelli di AI possono essere perfezionati per sfruttare al massimo le capacità offerte da dispositivi come il VPU di Intel. I progressi fatti qui aprono nuove strade per progettare soluzioni di AI efficienti che possono soddisfare le esigenze di varie applicazioni nella visione artificiale e nell'intelligenza artificiale.
Titolo: Neural Architecture Search for Intel Movidius VPU
Estratto: Hardware-aware Neural Architecture Search (NAS) technologies have been proposed to automate and speed up model design to meet both quality and inference efficiency requirements on a given hardware. Prior arts have shown the capability of NAS on hardware specific network design. In this whitepaper, we further extend the use of NAS to Intel Movidius VPU (Vision Processor Units). To determine the hardware-cost to be incorporated into the NAS process, we introduced two methods: pre-collected hardware-cost on device and device-specific hardware-cost model VPUNN. With the help of NAS, for classification task on VPU, we can achieve 1.3x fps acceleration over Mobilenet-v2-1.4 and 2.2x acceleration over Resnet50 with the same accuracy score. For super resolution task on VPU, we can achieve 1.08x PSNR and 6x higher fps compared with EDSR3.
Autori: Qian Xu, Victor Li, Crews Darren S
Ultimo aggiornamento: 2023-05-04 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.03739
Fonte PDF: https://arxiv.org/pdf/2305.03739
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://doi.org/10.48550/arxiv.2101.09336
- https://doi.org/10.48550/arxiv.1910.11609
- https://doi.org/10.48550/arxiv.2103.10584
- https://doi.org/10.48550/arxiv.2205.04586
- https://doi.org/10.48550/arxiv.1704.04861
- https://doi.org/10.48550/arxiv.1512.03385
- https://doi.org/10.48550/arxiv.1707.02921
- https://doi.org/10.48550/arxiv.1812.00332