Ottimizzare le prestazioni delle CNN 3D sui dispositivi FPGA

Indice

Cosa Sono le 3D CNN?
La Sfida delle 3D CNN
Riconoscimento delle Azioni Umane (HAR)
Contributi Chiave
Lavori Precedenti sulle 3D CNN
Famiglia di Modelli X3D
Interpretazione a Livello Hardware
Ottimizzazioni di Streaming
Esplorazione dello Spazio di Design
Partizionamento del Modello 3D CNN
Modellazione delle Prestazioni
Confronto con Lavori Esistenti
Risultati
Conclusione
Fonte originale

Le reti neurali convoluzionali tridimensionali (3D CNN) sono super importanti per tante applicazioni come la sorveglianza video, le auto a guida autonoma, e il monitoraggio delle azioni umane. Però, queste reti richiedono un sacco di potenza di calcolo e memoria, il che rende difficile usarle in sistemi con risorse limitate. Questo articolo parla di un nuovo strumento che aiuta a far funzionare meglio le 3D CNN sui dispositivi FPGA, che sono flessibili e possono dare buone prestazioni con meno energia.

Cosa Sono le 3D CNN?

Le CNN bidimensionali vengono comunemente utilizzate per compiti come il riconoscimento delle immagini. Con l'aumento delle applicazioni video, c'è bisogno di algoritmi che possano gestire informazioni temporali o di profondità. Ed è qui che entrano in gioco le 3D CNN. Sono progettate per imparare modelli da video e dati tridimensionali aggiungendo una dimensione extra, il che aiuta a catturare informazioni utili legate al movimento o alla profondità.

Le 3D CNN hanno mostrato buoni risultati nel riconoscere le azioni umane. Possono analizzare il movimento attraverso diversi fotogrammi video, rendendo più facile seguire varie attività umane senza dover fare affidamento solo su metodi incentrati sul tempo, come le reti LSTM.

La Sfida delle 3D CNN

Anche se le 3D CNN possono catturare caratteristiche legate al tempo e alla profondità, hanno anche richieste maggiori in termini di potenza di elaborazione e memoria rispetto alle loro controparti 2D. Per affrontare queste sfide, sono state sviluppate varie opzioni hardware come le GPU, gli FPGA e gli ASIC. Questo articolo si concentra sulla progettazione di sistemi che girano su FPGA per via della loro adattabilità e efficienza in termini di consumo energetico e prestazioni.

Riconoscimento delle Azioni Umane (HAR)

Nel riconoscimento delle azioni umane, un singolo clip video può generare molteplici clip più piccole spostando una finestra temporale fissa attraverso il video. Ognuno di questi clip viene analizzato per determinare l'azione che si sta svolgendo. Questo significa che un modello deve elaborare il clip video più volte per ottenere le prestazioni richieste. Quindi, i design che si concentrano sul massimizzare il Throughput-quanto dato può essere elaborato in un certo tempo-sono cruciali.

Contributi Chiave

Il nuovo strumento presentato in questo articolo, chiamato fpgaHART, si concentra sull'ottimizzazione delle 3D CNN per gli FPGA. Supporta una vasta gamma di modelli e tiene conto delle caratteristiche specifiche di ciascun modello, così come delle risorse hardware disponibili.

Lo strumento migliora anche un tipo specifico di grafo utilizzato nel processo di mapping, permettendo di gestire meglio modelli complessi comunemente usati nelle 3D CNN. È stata effettuata una valutazione approfondita su vari dispositivi e modelli per comprendere la sua efficacia nelle applicazioni reali.

Lavori Precedenti sulle 3D CNN

Anche se le 3D CNN esistono da un po', solo pochi studi hanno esplorato la loro accelerazione sugli FPGA. La maggior parte della ricerca esistente si è concentrata su modelli più vecchi come C3D, che non raggiungono le prestazioni di modelli più avanzati oggi. Alcuni ricercatori hanno proposto architetture hardware specificamente mirate a migliorare le prestazioni delle 3D CNN.

Tuttavia, gran parte di questo lavoro precedente è limitato a modelli specifici e non affronta le architetture più complesse presenti nei moderni design delle 3D CNN. Lo studio attuale mira a supportare questi modelli avanzati che consistono in molti strati e spesso includono strutture di ramificazione.

Famiglia di Modelli X3D

Nel 2020, è stata introdotta una serie di modelli 3D CNN efficienti noti come X3D. La famiglia include diverse versioni che vanno da piccole a molto grandi, a seconda di quanto siano complesse. Il modello più piccolo (X3D-XS) esegue 0,6 miliardi di operazioni in virgola mobile (GFLOPs), mentre il più grande (X3D-XXL) esegue 143,5 GFLOPs.

I modelli X3D hanno avuto buoni risultati in vari benchmark, mostrando prestazioni elevate nei compiti di riconoscimento delle azioni umane. L'articolo attuale si concentra sulla versione X3D-M, che trova un equilibrio tra carico computazionale e accuratezza.

Interpretazione a Livello Hardware

Per far funzionare le 3D CNN in modo efficiente sugli FPGA, il nuovo strumento estrae i parametri dalla descrizione del modello e li organizza in una struttura grafica che rappresenta i diversi strati e le loro connessioni. Questo grafo aiuta a mappare i componenti hardware necessari per eseguire i calcoli richiesti.

Lo strumento utilizza questo grafo per stimare come ciascun strato si comporterà sull'hardware, aiutando a garantire che tutto funzioni senza intoppi. Diversi tipi di strati, come convoluzioni e attivazioni, vengono trattati in modi che consentono prestazioni ottimali.

Ottimizzazioni di Streaming

Una delle sfide incontrate era con lo strato di pooling globale medio 3D, che può rallentare l'elaborazione a causa della sua natura di mediare tutti gli input. Per migliorare le prestazioni, lo strumento ha un metodo di approssimazione che consente di salvare i risultati precedenti in memoria, riducendo la necessità di buffering aggiuntivo e aiutando la pipeline a funzionare in modo più efficiente.

Esplorazione dello Spazio di Design

Lo strumento esplora come i diversi strati del modello possono lavorare insieme in un modo che massimizza le prestazioni. Questo viene raggiunto attraverso aggiustamenti dei parametri di questi strati mentre si simulano diverse configurazioni. Questa esplorazione aiuta a identificare la migliore configurazione per l'hardware utilizzato.

Partizionamento del Modello 3D CNN

Il processo di design adotta due approcci principali. Uno prevede l'uso di un'unità di elaborazione condivisa per tutti gli strati, mentre l'altro utilizza blocchi hardware dedicati per ciascun strato, il che può essere più efficiente. La flessibilità degli FPGA consente di creare architetture uniche per diverse parti del modello per garantire prestazioni migliori.

Questa strategia di partizionamento mira a migliorare l'uso delle risorse disponibili, con un potenziale significativo per ridurre le richieste di memoria.

Modellazione delle Prestazioni

Per valutare quanto bene un certo design performa, lo strumento include misure aggiuntive che valutano il carico di lavoro di ciascun strato. Questo aiuta a determinare quanto tempo ciascun strato impiegherà per elaborare i suoi input, il che a sua volta aiuta a delineare il tempo di esecuzione complessivo del modello.

Confronto con Lavori Esistenti

Il nuovo approccio raggiunge risultati promettenti se confrontato con i metodi esistenti. Concentrandosi sul throughput, dimostra che le 3D CNN possono essere implementate efficacemente sugli FPGA mantenendo prestazioni competitive rispetto ad architetture sintonizzate manualmente. Questo suggerisce che gli strumenti automatici possono giocare un ruolo essenziale nel migliorare le prestazioni delle 3D CNN.

Risultati

Lo strumento fpgaHART è stato testato su diversi dispositivi FPGA, mostrando buoni risultati in termini di velocità di elaborazione per diversi modelli di 3D CNN. Quando si tratta di gestire clip video, lo strumento può elaborare rapidamente molti clip garantendo un alto livello di accuratezza nel riconoscere le azioni umane.

I risultati illustrano che il nuovo strumento può davvero spingere oltre il limite delle prestazioni, raggiungendo un alto throughput senza sacrificare l'accuratezza.

Conclusione

Questo articolo introduce un nuovo strumento automatizzato per la distribuzione e l'ottimizzazione delle 3D CNN sui dispositivi FPGA. Sfruttando un approccio specifico della teoria dei grafi, lo strumento mappa efficacemente le 3D CNN sull'hardware, garantendo flessibilità ed efficienza. Mostra che è possibile supportare una gamma di modelli mentre si ottiene una prestazione competitiva rispetto ai sistemi sintonizzati manualmente.

Il lavoro futuro mirerà a sviluppare ulteriormente le capacità dello strumento, affrontando ulteriori requisiti e potenzialmente ampliando le sue caratteristiche di ottimizzazione. L'obiettivo complessivo è continuare a migliorare le prestazioni nelle applicazioni reali in cui vengono utilizzate le 3D CNN.

Ottimizzare le prestazioni delle CNN 3D sui dispositivi FPGA

Un nuovo strumento migliora l'efficienza delle CNN 3D su piattaforme FPGA.

Cosa Sono le 3D CNN?

La Sfida delle 3D CNN

Riconoscimento delle Azioni Umane (HAR)

Contributi Chiave

Lavori Precedenti sulle 3D CNN

Famiglia di Modelli X3D

Interpretazione a Livello Hardware

Ottimizzazioni di Streaming

Esplorazione dello Spazio di Design

Partizionamento del Modello 3D CNN

Modellazione delle Prestazioni

Confronto con Lavori Esistenti

Risultati

Conclusione

Argomenti citati

Ottimizzare le prestazioni delle CNN 3D sui dispositivi FPGA

Un nuovo strumento migliora l'efficienza delle CNN 3D su piattaforme FPGA.

#Cosa Sono le 3D CNN?

#La Sfida delle 3D CNN

#Riconoscimento delle Azioni Umane (HAR)

#Contributi Chiave

#Lavori Precedenti sulle 3D CNN

#Famiglia di Modelli X3D

#Interpretazione a Livello Hardware

#Ottimizzazioni di Streaming

#Esplorazione dello Spazio di Design

#Partizionamento del Modello 3D CNN

#Modellazione delle Prestazioni

#Confronto con Lavori Esistenti

#Risultati

#Conclusione

Argomenti citati

Cosa Sono le 3D CNN?

La Sfida delle 3D CNN

Riconoscimento delle Azioni Umane (HAR)

Contributi Chiave

Lavori Precedenti sulle 3D CNN

Famiglia di Modelli X3D

Interpretazione a Livello Hardware

Ottimizzazioni di Streaming

Esplorazione dello Spazio di Design

Partizionamento del Modello 3D CNN

Modellazione delle Prestazioni

Confronto con Lavori Esistenti

Risultati

Conclusione