Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Architettura hardware

Migliorare l'inferenza DNN con RAELLA

RAELLA migliora la tecnologia PIM per un'inferenza DNN più efficiente.

― 7 leggere min


RAELLA: Un NuovoRAELLA: Un NuovoApproccio ai DNNun'energia più efficiente.Trasformare l'inferenza DNN con
Indice

Processing-In-Memory, o PIM, è una tecnologia che punta a rendere i calcoli più veloci ed efficienti tenendo i dati vicino a dove vengono elaborati. Invece di spostare i dati avanti e indietro tra la memoria e un processore, PIM permette di fare i calcoli direttamente in memoria. Questo è particolarmente utile per gestire sistemi complessi come le Reti Neurali Profonde (DNN), che sono ampiamente usate per compiti come il riconoscimento delle immagini, la traduzione linguistica e altro.

Cos'è l'inferenza delle Reti Neurali Profonde (DNN)?

Le Reti Neurali Profonde, o DNN, sono modelli che imitano le funzioni del cervello umano per riconoscere schemi nei dati. Quando parliamo di "inferenza", ci riferiamo al processo di utilizzo di una DNN addestrata per fare previsioni o decisioni basate su nuovi input di dati. Ad esempio, una DNN addestrata può prendere un'immagine di un gatto e determinare che si tratta, infatti, di un gatto. Questi modelli contengono numerosi calcoli e parametri, rendendoli costosi dal punto di vista computazionale.

Perché PIM è importante per l'inferenza DNN?

Eseguire DNN richiede tipicamente molti movimenti di dati tra la memoria e il processore. Questo può rallentare il processo e consumare energia considerevole. PIM risolve questo problema eseguendo i calcoli proprio dove i dati sono memorizzati, riducendo il tempo necessario per l'elaborazione delle informazioni da parte delle DNN. Aiuta anche a risparmiare energia, un fattore critico man mano che le DNN diventano più complesse.

Il ruolo dei convertitori da analogico a digitale (ADC)

Nonostante i suoi vantaggi, PIM soffre di inefficienze a causa della necessità di convertitori da analogico a digitale, o ADC. Questi dispositivi convertono i segnali analogici generati durante i calcoli in valori digitali che possono essere elaborati. Gli ADC ad alta risoluzione possono essere costosi in termini di consumo energetico, il che riduce l'efficienza complessiva di PIM.

Soluzioni precedenti e le loro limitazioni

Molti approcci precedenti hanno cercato di ridurre i costi degli ADC abbassando la loro risoluzione o cambiando i pesi delle DNN. Anche se queste strategie sono riuscite a ridurre il consumo energetico, spesso hanno danneggiato l'accuratezza delle previsioni delle DNN. In alcuni casi, per recuperare questa precisione persa, le DNN dovevano essere riaddestrate, un processo che richiede tempo e risorse.

Introducendo RAELLA

Per affrontare queste sfide, è stato proposto un nuovo approccio chiamato RAELLA. RAELLA sta per "Riformare l'Aritmetica per PIM Analogico Efficiente, a Bassa Risoluzione e a Bassa Perdita". L'obiettivo di RAELLA è abbassare la risoluzione dei valori analogici utilizzati nei calcoli mantenendo l'accuratezza, il tutto senza dover riaddestrare le DNN.

Caratteristiche principali di RAELLA

  1. Center+Offset Encoding: Questo metodo regola i pesi delle DNN per avere una distribuzione bilanciata attorno a un punto centrale. In questo modo, gli output positivi e negativi possono annullarsi efficacemente, risultando in valori complessivi più piccoli per l'ADC. Questo aiuta a mantenere un output di alta qualità senza aumentare i requisiti di risoluzione.

  2. Adaptive Weight Slicing: RAELLA regola come i pesi vengono memorizzati e processati in base alle esigenze specifiche di ciascun livello di DNN. Limitando l'uso dei bit, mantiene i valori bassi ed efficienti, consentendo all'architettura di sfruttare lo stoccaggio ad alta densità.

  3. Dynamic Input Slicing: Questa funzionalità regola come vengono gestiti i dati di input in tempo reale. Inizialmente, usa un metodo più efficiente che processa i dati in blocchi più grandi. Se i risultati non sono soddisfacenti, viene utilizzato un metodo di riserva con pezzi più piccoli e accurati. Questo approccio doppio consente di massimizzare l'efficienza mantenendo comunque l'accuratezza.

Vantaggi di RAELLA

Rispetto ad altri acceleratori PIM, RAELLA è significativamente più efficiente. Può migliorare l'efficienza energetica fino a 4.9 volte e aumentare la velocità di elaborazione fino a 3.3 volte mantenendo livelli di accuratezza simili, il tutto senza necessità di costosi riaddestramenti delle DNN.

Comprendere l'inferenza DNN

Quando si esegue una DNN, vengono eseguite molte operazioni utilizzando pesi e input. I pesi sono valori che definiscono come gli input (come immagini o testo) vengono elaborati per produrre output (come classificazioni o previsioni). Gli acceleratori PIM come RAELLA possono calcolare queste operazioni senza spostare grandi quantità di dati, rendendo il processo più veloce ed energeticamente efficiente.

L'importanza della ReRAM

La RAM resistiva, o ReRAM, è un tipo di tecnologia di memoria spesso utilizzata insieme al PIM. Permette una memorizzazione ad alta densità e un'elaborazione analogica efficiente, fondamentali per l'esecuzione dei livelli di DNN. Tuttavia, l'efficienza della ReRAM può essere limitata a causa dell'energia consumata dagli ADC durante la lettura dei valori computati.

Sfide con gli ADC tradizionali

Gli ADC tradizionali possono consumare una quantità sproporzionata di energia rispetto ai calcoli eseguiti. In alcune situazioni, l'energia usata dagli ADC può essere diverse volte superiore a quella utilizzata per i calcoli effettivi. Questo rende i miglioramenti nell'efficienza degli ADC un'area chiave di focus nei progetti PIM.

Strategie precedenti per ridurre i costi degli ADC

Alcune soluzioni precedenti miravano ad affrontare l'alto consumo energetico degli ADC riducendo la loro risoluzione. Tuttavia, questo spesso portava a una diminuzione dell'accuratezza delle previsioni delle DNN. Inoltre, altri metodi cercavano di ridurre il numero di calcoli richiesti potando le DNN, ma questo poteva comportare anche una significativa perdita di accuratezza, necessitando di riaddestramento.

Il concetto di fedeltà

La fedeltà si riferisce a quanto accuratamente un ADC può rappresentare l'intera gamma di valori analogici calcolati. Quando la risoluzione di un valore calcolato supera quella dell'ADC, la fedeltà viene compromessa, portando a errori. I metodi passati cercavano spesso di modificare le DNN per adattarsi alle limitazioni degli ADC a bassa risoluzione. RAELLA invece si concentra sull'aggiustare l'architettura per la fedeltà senza modificare i modelli DNN.

Tre strategie principali di RAELLA

  1. Pesi Center+Offset: Bilanciando i pesi positivi e negativi attorno a un punto centrale, RAELLA può produrre somme più piccole che possono essere convertite accuratamente dall'ADC. Questo aiuta a mantenere la fedeltà utilizzando ADC a bassa risoluzione.

  2. Adaptive Weight Slicing: Questa strategia prevede di regolare dinamicamente come i pesi vengono memorizzati e processati in base alle necessità specifiche di ciascun livello DNN. Questo consente un uso ottimale dello spazio di memorizzazione e dell'efficienza riducendo la possibilità di somme ad alta risoluzione che potrebbero portare a perdita di fedeltà.

  3. Dynamic Input Slicing: In tempo reale, RAELLA può usare un metodo veloce ed efficiente per elaborare gli input e passare a un metodo più accurato se necessario. Questa flessibilità aiuta a mantenere alta la fedeltà pur migliorando l'efficienza computazionale.

Valutazione delle prestazioni di RAELLA

I test hanno dimostrato che RAELLA migliora significativamente le prestazioni dei sistemi PIM. Rispetto ad altri acceleratori PIM a bassa perdita di accuratezza, RAELLA aumenta l'efficienza energetica fino a 4.9 volte e la capacità di elaborazione fino a 3.3 volte. Inoltre, ottiene questi miglioramenti senza la necessità di riaddestrare le DNN.

Contesto su DNN e PIM

Le DNN eseguono principalmente operazioni matrice-vettore, rendendole intensive in termini di risorse. PIM, d'altra parte, è progettato per accelerare queste operazioni direttamente in memoria, riducendo la necessità di movimento dei dati. Questa capacità rende PIM un candidato forte per migliorare le prestazioni dei processi di inferenza delle DNN.

Come RAELLA affronta le limitazioni degli ADC

L'architettura di RAELLA si concentra specificamente nel minimizzare l'impatto degli ADC sul consumo energetico complessivo. Utilizzando ADC a bassa risoluzione e ottimizzando il modo in cui le informazioni vengono affettate e trattate, riduce significativamente il carico energetico associato agli ADC mantenendo l'accuratezza.

Valutare l'efficacia di RAELLA

Per valutare l'efficacia di RAELLA, sono stati eseguiti test su sette DNN rappresentative, compresi vari modelli popolari. I risultati hanno indicato che RAELLA ha superato le architetture PIM tradizionali offrendo maggiore efficienza e capacità di elaborazione. Questo è stato raggiunto mantenendo livelli di accuratezza comparabili a metodi più energeticamente intensivi.

Il futuro di PIM e dell'inferenza DNN

Con l'aumento della domanda di inferenze DNN efficienti, soluzioni come RAELLA potrebbero giocare ruoli cruciali nell'ottimizzare le prestazioni, il consumo energetico e l'accuratezza. Questo è particolarmente importante per applicazioni che richiedono elaborazione in tempo reale, come la guida autonoma, l'imaging medico e i sistemi AI personalizzati.

Riassunto

In sintesi, RAELLA rappresenta un significativo avanzamento nella tecnologia PIM riducendo efficacemente le inefficienze legate agli ADC. Il suo uso innovativo del Center+Offset encoding, slicing dei pesi adattivo e slicing dinamico degli input consente un'inferenza DNN efficiente senza sacrificare l'accuratezza. Questo approccio apre la strada a sistemi AI più potenti ed efficienti, rispondendo alla crescente necessità di velocità ed efficienza nei compiti computazionali. Con il continuo progresso della ricerca, possiamo aspettarci ulteriori miglioramenti nelle architetture PIM che supporteranno la prossima generazione di DNN e applicazioni AI.

Fonte originale

Titolo: RAELLA: Reforming the Arithmetic for Efficient, Low-Resolution, and Low-Loss Analog PIM: No Retraining Required!

Estratto: Processing-In-Memory (PIM) accelerators have the potential to efficiently run Deep Neural Network (DNN) inference by reducing costly data movement and by using resistive RAM (ReRAM) for efficient analog compute. Unfortunately, overall PIM accelerator efficiency is limited by energy-intensive analog-to-digital converters (ADCs). Furthermore, existing accelerators that reduce ADC cost do so by changing DNN weights or by using low-resolution ADCs that reduce output fidelity. These strategies harm DNN accuracy and/or require costly DNN retraining to compensate. To address these issues, we propose the RAELLA architecture. RAELLA adapts the architecture to each DNN; it lowers the resolution of computed analog values by encoding weights to produce near-zero analog values, adaptively slicing weights for each DNN layer, and dynamically slicing inputs through speculation and recovery. Low-resolution analog values allow RAELLA to both use efficient low-resolution ADCs and maintain accuracy without retraining, all while computing with fewer ADC converts. Compared to other low-accuracy-loss PIM accelerators, RAELLA increases energy efficiency by up to 4.9$\times$ and throughput by up to 3.3$\times$. Compared to PIM accelerators that cause accuracy loss and retrain DNNs to recover, RAELLA achieves similar efficiency and throughput without expensive DNN retraining.

Autori: Tanner Andrulis, Joel S. Emer, Vivienne Sze

Ultimo aggiornamento: 2023-04-16 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2304.07935

Fonte PDF: https://arxiv.org/pdf/2304.07935

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili