L’accordo di licenza strategica da 20 miliardi di dollari tra Nvidia e Groq rappresenta una delle prime mosse chiare nella lotta su quattro fronti per il futuro stack dell’IA. Il 2026 è l’anno in cui questa lotta diventa chiara per i costruttori aziendali.
Per i decisori tecnici con cui parliamo ogni giorno, le persone che creano applicazioni di intelligenza artificiale e le pipeline di dati che le guidano, questo accordo segnala che l’era della GPU unica per tutti come risposta predefinita all’inferenza dell’intelligenza artificiale è finita.
Stiamo entrando nell’era Architettura di inferenza scompostaPer adattarsi a un mondo che richiede sia un ampio contesto che un ragionamento in una frazione di secondo, il silicio stesso si sta dividendo in due tipi diversi.
Perché l’inferenza divide l’architettura della GPU in due?
Per capire perché il CEO di Nvidia Jensen Huang ha perso un terzo Segnalato un mucchio di contanti di 60 miliardi di dollari In un accordo di licenza, dovresti considerare le minacce esistenziali segnalate dalla tua azienda. Quota di mercato del 92%..
Alla fine del 2025 il settore ha raggiunto una pietra miliare: l’inferenza, la fase in cui i modelli addestrati vengono effettivamente eseguiti per la prima volta. ha superato l’istruzione in termini di entrate totali del data centerSecondo Deloitte. questo è nuovo "Conversione di inferenza," le misure sono cambiate. Sebbene la precisione rimanga il punto di riferimento, la battaglia ora si combatte sulla latenza e sulla capacità di sostenibilità. "situazione" negli agenti autonomi.
Questa battaglia si svolge su quattro fronti e ciascuno di essi porta alla stessa conclusione: i carichi di lavoro di inferenza vengono frammentati più velocemente di quanto le GPU possano generalizzare.
1. Dividere la GPU a metà: precarica e decodifica
Gavin Baker, investitore di Groq (e quindi di parte ma anche insolitamente esperto in architettura), riassunto Il punto chiave dell’accordo Groq è chiaro: “L’inferenza è divisa in pre-compilazione e decodifica”.
precompilare E decifrare Ci sono due diverse fasi:
-
Fase di pre-riempimento: Questo l’utente "presto" scena. Il modello deve acquisire enormi quantità di dati, che si tratti di 100.000 righe di codice o di un’ora di video, e calcolare una comprensione contestuale. Questo "a seconda del calcolo," Richiede un’enorme moltiplicazione delle matrici, in cui le GPU Nvidia storicamente eccellono.
-
Fase di rendering (decodifica): Questo è reale sulla base delle monete "generazione.” Una volta ricevuto il prompt, il modello genera una parola (o simbolo) alla volta e reimmette ciascuno di essi nel sistema per prevedere quello successivo. "limite di larghezza di banda della memoria." Se i dati non possono essere spostati dalla memoria al processore abbastanza velocemente, il modello si bloccherà, indipendentemente dalla potenza della GPU. (È qui che Nvidia è debole e l’unità di elaborazione del linguaggio (LPU) dedicata di Groq e la memoria SRAM associata brillano. Ne parleremo più avanti tra poco.)
Nvidia ha annunciò che si sarebbe avvicinato Vera Rubin famiglia di patatine Progetta specificamente un’architettura per superare questo divario. Rubin CPX Il componente di questa famiglia è stato identificato "precompilare" Un prodotto potente ottimizzato per enormi finestre di contesto di 1 milione o più monete. Per gestire questa scala in modo conveniente, evita spese allettanti. memoria a larghezza di banda elevata (HBM) — L’attuale memoria gold standard di Nvidia, che si trova proprio accanto al die della GPU e utilizza invece un nuovo tipo di memoria da 128 GB GDDR7. Sebbene HBM offra velocità estrema (anche se non così veloce come la memoria statica ad accesso casuale (SRAM) di Groq), le sue risorse sulle GPU sono limitate e il suo costo rappresenta una barriera alla scalabilità; GDDR7 fornisce un modo più conveniente per acquisire set di dati di grandi dimensioni.
Nel frattempo, "Al gusto Groq" Il silicio che Nvidia ha integrato nella sua roadmap di inferenza fungerà da soluzione ad alta velocità "decifrare" motore. Si tratta di neutralizzare la minaccia rappresentata da architetture alternative come le TPU di Google e mantenere la posizione dominante. CUDA, L’ecosistema software di Nvidia, che è stato il suo fossato principale per oltre un decennio.
Tutto ciò è bastato all’investitore di Groq Baker per prevedere che il passaggio di Nvidia alla licenza di Groq avrebbe comportato la cancellazione di tutti gli altri chip AI personalizzati tranne il TPU di Google, l’AI5 di Tesla e il Trainium di AWS.
2. Potenza differenziata della SRAM
Nel cuore della tecnologia Groq SRAM. A differenza della DRAM del tuo PC o dell’HBM della GPU Nvidia H100, la SRAM è cablata direttamente nella logica del processore.
Michael Stewart, socio amministratore del fondo di rischio M12 di Microsoft, descrive la SRAM come la migliore per spostare dati su brevi distanze con il minimo consumo energetico. "L’energia per spostarne alcuni nella SRAM è di 0,1 picojoule o meno," disse Stewart. "Spostarlo tra DRAM e processore è da 20 a 100 volte peggiore."
Nel mondo del 2026 in cui gli agenti devono ragionare in tempo reale, SRAM rappresenta la soluzione definitiva "album": Il modello include operazioni simboliche e processi di ragionamento complessi, "cicli sprecati" spostamento della memoria esterna.
Tuttavia, la SRAM presenta un grosso inconveniente: è fisicamente ingombrante e costosa da produrre; Ciò significa che la sua capacità è limitata rispetto alla DRAM. Val Bercovici, responsabile dell’intelligenza artificiale presso Weka, un’altra azienda che offre memoria per GPU, vede qui una segmentazione del mercato.
Bercovici ha affermato che i carichi di lavoro AI compatibili con Groq in cui la SRAM ha un vantaggio sono carichi di lavoro che utilizzano modelli piccoli con 8 miliardi di parametri e inferiori. Ma questo non è un mercato piccolo. “Si tratta di un enorme segmento di mercato che Nvidia semplicemente non serve: inferenza edge, bassa latenza, robotica, voce, dispositivi IoT, cose che vogliamo che funzionino sui nostri telefoni senza il cloud per comodità, prestazioni o privacy." ha detto.
Questo è 8B "punto debole" importante perché c’è stata un’esplosione nel 2025 modello di distillazioneLaddove molte aziende aziendali ridimensionano modelli di grandi dimensioni in versioni più piccole con maggiore efficienza. Sebbene SRAM non sia pratico per trilioni di parametri "confine" modelli, questo è perfetto per i modelli più piccoli e ad alta velocità.
3. Minaccia antropica: l’ascesa della “pila portatile”
Forse il fattore più sottovalutato di questo accordo è il successo di Anthropic nel rendere il suo stack portabile attraverso gli acceleratori.
azienda avere ha aperto la strada a un approccio ingegneristico portatile per l’addestramento e l’inferenza: essenzialmente un livello software che consente ai modelli Claude di funzionare su più famiglie di acceleratori IA, comprese le GPU di Nvidia e le TPU Ironwood di Google. Fino a poco tempo fa, il dominio di Nvidia veniva mantenuto perché far funzionare modelli ad alte prestazioni al di fuori dello stack Nvidia era un incubo tecnico. “È una cosa antropica”, mi ha detto Bercovici di Weka. “Non credo che sia abbastanza apprezzato sul mercato il fatto che Anthropic sia stata in grado di costruire uno stack software in grado di funzionare sia su TPU che su GPU.”
(Divulgazione: Weka è uno sponsor degli eventi VentureBeat.)
Anthropic si è recentemente impegnata a fornire l’accesso a: 1 milione di TPU Rappresenta oltre un gigawatt di capacità di calcolo di Google. Questo approccio multipiattaforma garantisce che l’azienda non sia tenuta in ostaggio dai prezzi o dai vincoli di fornitura di Nvidia. Quindi per Nvidia l’accordo con Groq è ugualmente una mossa difensiva. Integrando l’IP di inferenza ultraveloce di Groq, Nvidia garantisce che i carichi di lavoro più sensibili alle prestazioni (come quelli che eseguono modelli di piccole dimensioni o quelli che fanno parte di agenti in tempo reale) possano essere ospitati all’interno dell’ecosistema CUDA di Nvidia, anche se i concorrenti tentano di migrare alle TPU Ironwood di Google. CUDA è il software proprietario che Nvidia fornisce agli sviluppatori per integrare le GPU.
4. I perpetratori della guerra “statale”: Manus e KV Cache
La tempistica di questo accordo con Groq coincide con l’acquisizione da parte di Meta dell’agente principale Manù appena due giorni fa. L’importanza di Manus derivava in parte dalla sua ossessione. situazionalità.
Se un rappresentante non riesce a ricordare cosa ha fatto 10 passi fa, è inutile per attività del mondo reale come ricerche di mercato o sviluppo di software. Cache KV (cache dei valori-chiave) Questo "memoria a breve termine" che un LLM viene creato nella fase di precompilazione.
Manù segnalato Per le agenzie a livello di produzione, Il rapporto tra token di input e token di output può raggiungere 100:1. Ciò significa che per ogni parola che un agente dice, "pensiero" E "da ricordare" Altre 100 persone. In questo ambiente, il tasso di successo di KV Cache è il parametro più importante per un agente di produzione, ha affermato Manus. Se questa cache "è stato evacuato" L’agente perde il filo del pensiero dalla memoria e il modello deve spendere una grande quantità di energia per ricalcolare il prompt.
La SRAM di Groq potrebbe essere una di queste "album" per questi agenti, anche se soprattutto per modelli più piccoli, perché consente il recupero quasi istantaneo dello stato. insieme a Quello di Nvidia Dinamo telaio e KVBM, Nvidia sta costruendo un "sistema operativo di inferenza" potrebbe stratificarlo tra SRAM, DRAM e altre offerte basate su flash di Weka di Bercovici.
Thomas Jorgensen, direttore senior di Technology Enablement per Supermicro, specializzata nella creazione di cluster GPU per grandi aziende, mi ha detto a settembre che l’elaborazione non è più il collo di bottiglia principale per i cluster avanzati. L’alimentazione dei dati alle GPU rappresentava un collo di bottiglia e per superare tale collo di bottiglia è necessaria memoria.
"L’intero cluster ora è un computer," ha detto Jorgensen. "La rete sta diventando una parte interna della bestia… nutrire la bestia con i dati diventa più difficile perché la larghezza di banda tra le GPU sta aumentando più velocemente di qualsiasi altra cosa."
Questo è il motivo per cui Nvidia si sta muovendo verso l’inferenza disaggregata. Le applicazioni aziendali possono utilizzare livelli di storage dedicati per separare i carichi di lavoro, alimentando i dati con prestazioni di classe memoria; "Groq-dentro" il silicio gestisce la generazione di token ad alta velocità.
Decisione del 2026
Stiamo entrando in un’era di specializzazione estrema. Per decenni, le aziende affermate sono state in grado di vincere introducendo un’architettura generica e i loro punti ciechi erano spesso le cose che ignoravano ai margini. La lunga negligenza da parte di Intel nei confronti dei bassi consumi è un classico esempio, mi ha detto Michael Stewart, socio amministratore del fondo di venture capital M12 di Microsoft. Nvidia segnala che non ripeterà questo errore. “Se il leader, anche il leone della giungla, vince il talento, vince la tecnologia, è un segno che l’intero mercato vuole più scelta”, ha detto Stewart.
Il messaggio per i leader tecnologici è questo: Smetti di progettare il tuo stack come uno scaffale, un acceleratore, una risposta. Nel 2026, i team che etichettano chiaramente i carichi di lavoro e li instradano al livello corretto trarranno vantaggio:
-
pre-riempimento ponderato ecc. decodifica focalizzata
-
contesto lungo e contesto breve
-
interattivo e collettivo
-
modello piccolo e modello grande
-
Vincoli dei edge e ipotesi del data center
La tua architettura seguirà questi tag. Nel 2026, la “strategia GPU” cesserà di essere una decisione di acquisto e si trasformerà in una decisione di orientamento. Ai vincitori non verrà chiesto quale chip hanno acquistato; Chiederanno dove e perché ogni token è in esecuzione.















