La grande novità di Nvidia questa settimana che ha fatto notizia su tutti i media è stato l’annuncio da parte dell’azienda della GPU Vera Rubin.
Questa settimana, il CEO di Nvidia Jensen Huang ha utilizzato il suo intervento al CES per evidenziare i parametri prestazionali del nuovo chip. Secondo Huang, la GPU Rubin è in grado di raggiungere 50 PFLOP di inferenza NVFP4 e 35 PFLOP di prestazioni di addestramento NVFP4; Ciò significa 5 volte e 3,5 volte le prestazioni di Blackwell.
Tuttavia, non sarà disponibile prima della seconda metà del 2026. Cosa dovrebbero fare quindi le aziende adesso?
Blackwell continua a migliorare
L’attuale architettura GPU Nvidia è Blackwell. annunciato Come successore di Hopper nel 2024. Oltre a questo rilascio, Nvidia ha sottolineato che il suo percorso di ingegnerizzazione del prodotto include anche lo sfruttamento di quante più prestazioni possibili dalla precedente architettura Grace Hopper.
È una direzione che varrà anche per Blackwell quando Vera Rubin arriverà entro la fine dell’anno.
"Continuiamo a ottimizzare i nostri stack di inferenza e training per l’architettura Blackwell." Dave Salvator, direttore dei prodotti informatici accelerati di Nvidia, ha detto a VentureBeat.
Nella stessa settimana in cui Vera Rubin è stata elogiata dal CEO di Nvidia come la GPU più potente di sempre, l’azienda ha pubblicato un nuovo grafico. ricerca dimostrando prestazioni migliorate di Blackwell.
In che modo le prestazioni di Blackwell hanno aumentato l’inferenza di 2,8 volte?
Nvidia è riuscita ad aumentare le prestazioni della GPU Blackwell fino a 2,8 volte per GPU in soli tre mesi.
I miglioramenti prestazionali derivano da una serie di innovazioni aggiunte al motore di inferenza Nvidia TensorRT-LLM. Queste ottimizzazioni vengono applicate all’hardware esistente, consentendo alle distribuzioni Blackwell esistenti di ottenere un throughput più elevato senza modifiche hardware.
I guadagni in termini di prestazioni vengono misurati su DeepSeek-R1, un modello di miscela di esperti (MoE) da 671 miliardi di parametri che abilita 37 miliardi di parametri per token.
Tra le innovazioni tecniche che aumentano le prestazioni:
-
Avvio dipendente dalla programmazione (PDL): L’esecuzione estesa aumenta il throughput riducendo le latenze di avvio del kernel.
-
Contatto pubblico: La nuova implementazione dei fondamenti della comunicazione riduce il sovraccarico della memoria eliminando il buffering intermedio.
-
Previsione di token multipli (MTP): Aumenta il throughput su varie lunghezze di sequenza generando più token per passaggio in avanti anziché uno alla volta.
-
Formato NVFP4: Formato a virgola mobile a 4 bit con accelerazione hardware Blackwell che riduce i requisiti di larghezza di banda della memoria mantenendo la precisione del modello.
Le ottimizzazioni riducono il costo per milione di monete e consentono alle infrastrutture esistenti di servire volumi di domanda più elevati con una latenza inferiore. I fornitori di servizi cloud e le imprese possono scalare i servizi di intelligenza artificiale senza la necessità di aggiornamenti hardware immediati.
Blackwell ha anche notato un aumento delle prestazioni di allenamento
Blackwell è anche ampiamente utilizzato come componente hardware chiave per l’addestramento dei modelli linguistici più grandi.
A questo proposito, Nvidia ha anche riportato guadagni significativi per Blackwell quando viene utilizzato per l’addestramento dell’IA.
Il sistema GB200 NVL72 ha fornito prestazioni di allenamento fino a 1,4 volte superiori sullo stesso hardware sin dal suo lancio iniziale; È stato ottenuto un aumento del 40% in soli cinque mesi senza alcun aggiornamento hardware.
L’incremento formativo è venuto da una serie di aggiornamenti tra cui:
-
Ricette di allenamento ottimizzate. Gli ingegneri Nvidia hanno sviluppato ricette di formazione avanzate che aumentano efficacemente la sensibilità NVFP4. Le spedizioni iniziali di Blackwell utilizzavano la precisione FP8, ma il passaggio a ricette ottimizzate per NVFP4 ha consentito prestazioni aggiuntive significative rispetto al silicio esistente.
-
Miglioramenti algoritmici. I continui miglioramenti dello stack software e degli algoritmi hanno consentito alla piattaforma di ottenere prestazioni migliori dallo stesso hardware, favorendo un’innovazione continua oltre la distribuzione iniziale.
Doppio Blackwell o aspetta Vera Rubin?
Blackwell Ultra di fascia alta è una piattaforma leader di mercato progettata per eseguire modelli e applicazioni IA all’avanguardia, ha affermato Salvator.
ha aggiunto Nvidia ha affermato che la piattaforma Rubin espanderà la leadership di mercato dell’azienda e consentirà ai MoE di prossima generazione di alimentare una nuova classe di applicazioni che faranno avanzare ulteriormente l’innovazione dell’intelligenza artificiale.
Salvator ha spiegato che Vera Rubin è stata progettata per soddisfare la crescente domanda di elaborazione creata dalla continua crescita delle dimensioni dei modelli e dalla generazione di token di ragionamento da modelli leader come MoE.
"Blackwell e Rubin possono servire gli stessi modelli, ma la differenza tra loro sta nelle prestazioni, nell’efficienza e nel costo simbolico." ha detto.
Secondo i primi risultati dei test di Nvidia, rispetto a Blackwell, Rubin può addestrare modelli MoE di grandi dimensioni in un quarto del tempo delle GPU, eseguire inferenze sulla generazione di token a 10 volte l’efficienza per watt e dedurre la generazione di token a 1/10 del costo per moneta.
"Migliori prestazioni ed efficienza nella generazione di token significano che è possibile creare modelli più recenti con una maggiore capacità di ragionamento e un’interazione da agente ad agente più rapida, creando una migliore intelligenza a costi inferiori." Ha detto Salvatore.
Cosa significa questo per gli sviluppatori di intelligenza artificiale aziendale?
Per le organizzazioni che utilizzano oggi l’infrastruttura AI, gli investimenti esistenti in Blackwell rimangono solidi nonostante l’arrivo di Vera Rubin entro la fine dell’anno.
Le organizzazioni con distribuzioni Blackwell esistenti possono realizzare immediatamente un miglioramento dell’inferenza di 2,8 volte e un aumento della formazione di 1,4 volte aggiornando alle ultime versioni di TensorRT-LLM; Ciò fornisce un risparmio reale sui costi senza spese in conto capitale. Per coloro che pianificano nuove implementazioni nella prima metà del 2026, ha senso andare avanti con Blackwell. Aspettare sei mesi significa ritardare le iniziative di intelligenza artificiale e potenzialmente rimanere indietro rispetto ai concorrenti già implementati oggi.
Tuttavia, le aziende che pianificano la costruzione di infrastrutture su larga scala per la fine del 2026 e oltre dovrebbero includere Vera Rubin nelle loro tabelle di marcia. L’aumento di 10 volte dell’efficienza per watt e 1/10 del costo per moneta rappresenta un’economia di trasformazione su larga scala per le operazioni di intelligenza artificiale.
L’approccio intelligente è l’implementazione graduale: sfruttare Blackwell per le esigenze immediate durante la progettazione di sistemi che possono includere Vera Rubin quando disponibile. Il modello di ottimizzazione continua di Nvidia significa che questa non è una scelta binaria; le organizzazioni possono massimizzare il valore delle implementazioni esistenti senza compromettere la competitività a lungo termine.















