I ricercatori di Nvidia hanno sviluppato un nuovo approccio Formazione di modelli linguistici di grandi dimensioni (LLM) in formato quantizzato a 4 bit mantenendo la loro stabilità e accuratezza al livello dei modelli ad alta precisione. La loro tecnica consente a NVFP4 di addestrare modelli che non solo superano gli altri principali formati a 4 bit, ma eguagliano anche le prestazioni del più grande formato FP8 a 8 bit, il tutto utilizzando metà della memoria e una frazione del calcolo.

Il successo di NVFP4 dimostra che le organizzazioni possono continuare a ridurre i costi di inferenza eseguendo modelli più snelli che corrispondono alle prestazioni di modelli più grandi. Indica inoltre un futuro in cui il costo della formazione dei LLM scenderà al punto in cui molte più organizzazioni saranno in grado di formare i propri modelli su misura da zero, anziché mettere a punto i modelli esistenti.

Difficoltà di quantificazione

Quantizzazione del modello Si tratta di una tecnica utilizzata per ridurre i costi computazionali e di memoria legati all’esecuzione e all’addestramento dei modelli di intelligenza artificiale. Funziona convertendo i parametri o i pesi del modello da formati ad alta precisione come virgola mobile a 16 e 32 bit (BF16 e FP32) a formati a precisione inferiore. La sfida principale nella quantizzazione è ridurre le dimensioni del modello preservandone il più possibile le informazioni e le capacità.

Negli ultimi anni, i formati a virgola mobile a 8 bit (FP8) sono diventati uno standard di settore popolare che offre un buon equilibrio tra prestazioni ed efficienza. Riducono significativamente il costo computazionale e la richiesta di memoria per la formazione LLM senza un notevole calo della precisione.

Il prossimo passo logico è il 4 bit in virgola mobile (FP4), che promette di dimezzare nuovamente l’utilizzo della memoria e di aumentare ulteriormente le prestazioni su hardware avanzato. Tuttavia, questa transizione è stata piuttosto difficile. I formati esistenti a 4 bit come MXFP4 spesso faticano a fornire lo stesso livello di precisione delle loro controparti a 8 bit, costringendo a un difficile equilibrio tra costi e prestazioni.

Come funziona NVFP4?

NVFP4 supera le sfide di stabilità e precisione di altre tecniche FP4 attraverso una progettazione più intelligente e una metodologia di formazione mirata. Un grosso problema con la precisione a 4 bit è la sua gamma estremamente limitata: può rappresentare solo 16 valori diversi. Durante la conversione da un formato ad alta precisione, i valori anomali possono danneggiare l’intero set di dati, danneggiando l’accuratezza del modello. NVFP4 utilizza un approccio di dimensionamento più complesso e multilivello che gestisce meglio questi valori anomali. "Rappresentazione più precisa e accurata dei valori tensoriali durante l’allenamento," Secondo Nvidia.

Oltre al formato, i ricercatori presentano una ricetta di formazione a 4 bit che raggiunge una precisione paragonabile all’8° PQ. Una componente centrale è la “strategia di precisione mista”. Invece di convertire l’intero modello in NVFP4, la maggior parte degli strati viene quantizzata mentre una piccola parte degli strati numericamente sensibili viene mantenuta in un formato di precisione più elevata come BF16. Ciò mantiene la stabilità dove conta di più. La metodologia regola anche il modo in cui i gradienti vengono calcolati durante la backpropagation (o la fase di apprendimento del modello) per ridurre i bias che possono accumularsi a causa dell’aritmetica di bassa precisione.

NVFP4 in pratica

Il team Nvidia ha sviluppato un potente ibrido con 12 miliardi di parametri per testare il proprio approccio. Modello Mamba-Transformer Si tratta di un enorme token da 10 trilioni. Hanno poi confrontato direttamente le sue prestazioni con un modello base addestrato sul diffusissimo formato FP8. I risultati hanno mostrato che la perdita di formazione e l’accuratezza delle attività a valle del modello NVFP4 hanno seguito da vicino la versione FP8 durante l’intero processo.

Prestazioni ottenute in un’ampia gamma di ambiti, tra cui ragionamento ad alta intensità di conoscenza, matematica e compiti basati sul buon senso, con solo un leggero calo nella codifica dei parametri di riferimento nella fase finale della formazione.

"”Ciò segna, a nostra conoscenza, la prima dimostrazione di successo dell’addestramento di modelli linguistici da miliardi di parametri con precisione a 4 bit su un orizzonte di molti trilioni di token e getta le basi per un addestramento più rapido ed efficiente dei futuri modelli di frontiera”, scrivono i ricercatori.

In pratica, il formato di precisione a 4 bit di NVFP4 consente agli sviluppatori e alle aziende di addestrare e distribuire modelli di intelligenza artificiale con quasi la stessa precisione dei tradizionali formati a 8 bit, secondo NvidiaShar Narasimhan, direttore del prodotto Nvidia per GPU AI e data center.

“Addestrando i pesi dei modelli direttamente in formato a 4 bit mantenendo la precisione, offre agli sviluppatori il potere di sperimentare nuove architetture, iterare più velocemente e scoprire informazioni senza essere impantanati dai vincoli delle risorse”, ha dichiarato a VentureBeat.

Al contrario, l’FP8 (sebbene già un passo avanti rispetto all’FP16) impone ancora limiti alle dimensioni del modello e alle prestazioni di inferenza a causa delle maggiori richieste di memoria e larghezza di banda. “NVFP4 supera questo limite offrendo una qualità equivalente con molto più margine per la crescita e la sperimentazione”, ha affermato Narasimhan.

I vantaggi di NVFP4 diventano ancora più evidenti se confrontati con il formato alternativo MXFP4 a 4 bit. In un esperimento con un modello con 8 miliardi di parametri, NVFP4 si è avvicinato a un punteggio di perdita migliore rispetto a MXFP4. Per ottenere lo stesso livello di prestazioni del modello NVFP4, il modello MXFP4 ha dovuto essere addestrato con il 36% di dati in più; Ciò ha comportato un aumento significativo dei tempi e dei costi di formazione.

Oltre a rendere la preformazione più efficiente, NVFP4 ridefinisce ciò che è possibile. “Dimostrare che la precisione a 4 bit può preservare la qualità del modello su larga scala apre le porte a un futuro in cui modelli altamente specializzati possono essere addestrati da zero non solo da hyperscaler ma da aziende o startup di medie dimensioni”, ha affermato Narasimhan, aggiungendo che nel tempo possiamo aspettarci un passaggio dallo sviluppo di modelli LLM generici a “un ecosistema diversificato di modelli specializzati e ad alte prestazioni costruiti da una gamma più ampia di innovatori”.

Oltre la pre-formazione

Sebbene l’articolo si concentri sui vantaggi dell’NVFP4 durante la fase pre-formazione, il suo impatto si estende anche alle implicazioni.

“I modelli addestrati su NVFP4 non solo forniscono un’inferenza più rapida e un throughput più elevato, ma accelerano anche il ciclo dallo sviluppo del modello all’implementazione nel mondo reale riducendo il tempo necessario alle fabbriche di intelligenza artificiale per ottenere un ritorno sull’investimento”, ha affermato Narasimhan.

Poiché questi modelli sono più piccoli e più efficienti, aprono nuove possibilità per fornire risposte complesse e di alta qualità in tempo reale, anche in applicazioni con agenti ad alta intensità di token, senza aumentare i costi energetici e di elaborazione.

Narasimhan ha affermato di guardare a un futuro in cui l’efficienza del modello non solo riduce la precisione ma crea anche sistemi più intelligenti.

“Ci sono molte opportunità per estendere la ricerca a sensibilità inferiori e modificare le architetture per affrontare componenti che dominano sempre più l’elaborazione nei modelli su larga scala”, ha affermato. “Queste aree sono ricche di opportunità, soprattutto mentre ci muoviamo verso sistemi agenti che richiedono un throughput elevato, bassa latenza e ragionamento adattivo. NVFP4 dimostra che la precisione può essere ottimizzata senza sacrificare la qualità, aprendo la strada a una nuova era di progettazione AI intelligente ed efficiente.”

Collegamento alla fonte