Quando un agente AI perde il contesto nel corso di un’attività perché lo storage tradizionale non riesce a tenere il passo con l’inferenza, si tratta di un problema di storage, non di un problema di modello. Al GTC 2026, Nvidia ha annunciato BlueField-4 STX, un’architettura di riferimento modulare che aggiunge uno strato dedicato di memoria di contesto tra GPU e storage tradizionale, dichiarando un throughput dei token 5 volte superiore, un’efficienza energetica 4 volte maggiore e una velocità di ingestione 2 volte più veloce rispetto allo storage tradizionale basato su CPU.
Le destinazioni STX del collo di bottiglia sono dati della cache di valori-chiave. Una cache KV è un record memorizzato di ciò che un modello ha attualmente elaborato; LLM salva i calcoli intermedi in modo da non dover ricalcolare l’attenzione nell’intero contesto in ogni fase di inferenza. Questo è ciò che consente a un agente di mantenere una memoria di lavoro coerente tra sessioni, chiamate allo strumento e passaggi di ragionamento. Man mano che le finestre di contesto crescono e gli agenti eseguono più passaggi, la cache cresce con loro. Quando deve attraversare un percorso di storage tradizionale per tornare alla GPU, l’inferenza rallenta e l’utilizzo della GPU diminuisce.
STX non è un prodotto che Nvidia vende direttamente. Si tratta di un’architettura di riferimento che l’azienda sta distribuendo al suo ecosistema di partner di storage in modo che i fornitori possano costruire attorno ad essa un’infrastruttura specifica per l’intelligenza artificiale.
STX inserisce uno strato di memoria di contesto tra GPU e disco
L’architettura è costruita attorno a un nuovo processore BlueField-4 ottimizzato per lo storage che combina la CPU Vera di Nvidia con ConnectX-9 SuperNIC. Spectrum-X funziona su rete Ethernet ed è programmabile tramite la piattaforma software DOCA di Nvidia.
La prima implementazione su scala rack è la piattaforma di archiviazione della memoria dei contenuti Nvidia CMX. CMX estende la memoria della GPU con un livello di contesto ad alte prestazioni progettato specificamente per archiviare e recuperare i dati della cache KV generati da modelli linguistici di grandi dimensioni durante l’inferenza. Ciò per cui CMX è progettato è mantenere questa cache accessibile senza dover andare avanti e indietro per l’archiviazione generica.
"I data center tradizionali forniscono storage ad alta capacità e per uso generale, ma spesso non hanno la reattività necessaria per interagire con molti passaggi, strumenti e agenti IA che devono essere eseguiti in sessioni diverse." Lo ha detto Ian Buck, vicepresidente dell’hyperscale e dell’high-performance computing di Nvidia, in un briefing con la stampa e gli analisti.
In risposta a una domanda di VentureBeat, Buck ha confermato che STX è dotato di una piattaforma software di riferimento e della sua architettura hardware. Nvidia sta espandendo DOCA per includere un nuovo componente indicato nel briefing come DOCA Note.
"I nostri fornitori di storage possono sfruttare la programmabilità del processore BlueField-4 per ottimizzare lo storage per la fabbrica AI dell’agenzia." disse Buck. "Oltre ad avere l’architettura rack di riferimento, forniamo loro anche una piattaforma software di riferimento per fornire queste innovazioni e ottimizzazioni ai loro clienti."
Basati su STX, i partner di storage ottengono sia un progetto di riferimento hardware che una piattaforma di riferimento software, una base programmabile per lo storage ottimizzato per il contesto.
L’elenco dei partner di Nvidia include operatori storici dello storage e fornitori di cloud basati sull’intelligenza artificiale
I fornitori di storage che hanno co-progettato un’infrastruttura basata su STX includono Cloudian, DDN, Dell Technologies, Everpure, Hitachi Vantara, HPE, IBM, MinIO, NetApp, Nutanix, VAST Data e WEKA. I partner di produzione che realizzano sistemi basati su STX includono AIC, Supermicro e Quanta Cloud Technology.
Sul lato cloud e AI, CoreWeave, Crusoe, IREN, Lambda, Mistral AI, Nebius, Oracle Cloud Infrastructure e Vultr si sono impegnati con STX per l’archiviazione della memoria di contesto.
La combinazione tra operatori storici dello storage aziendale e fornitori di cloud specifici per l’intelligenza artificiale è un segnale che vale la pena tenere d’occhio. Nvidia non sta posizionando STX come prodotto specifico per gli hyperscaler. Lo posiziona come standard di riferimento per chiunque crei infrastrutture di storage che debbano servire i carichi di lavoro AI delle agenzie; Ciò includerà probabilmente la maggior parte delle implementazioni di intelligenza artificiale aziendale che eseguono inferenza multifase su larga scala entro i prossimi due o tre anni.
Le piattaforme basate su STX saranno disponibili presso i partner nella seconda metà del 2026.
IBM mostra come si presenta il problema del livello dati nella produzione
IBM è su entrambi i lati dell’annuncio di STX. È elencato come fornitore di storage che co-progetta infrastrutture basate su STX e Nvidia ha inoltre confermato di aver selezionato IBM Storage Scale System 6000 – certificato e convalidato sulle piattaforme Nvidia DGX – come base di storage ad alte prestazioni per la sua infrastruttura di analisi basata su GPU.
IBM ha inoltre annunciato una collaborazione più ampia con Nvidia al GTC, inclusa l’integrazione accelerata da GPU tra il motore SQL watsonx.data Presto di IBM e la libreria cuDF di Nvidia. Una prova di concetto di produzione con Nestlé ha rivelato i numeri su come si presenta questa accelerazione: il ciclo di aggiornamento dei dati nel mercato dei dati Order-to-Cash dell’azienda, che copre 186 paesi e 44 tavoli, è sceso da 15 minuti a tre minuti. IBM ha registrato un risparmio sui costi dell’83% e un miglioramento del rapporto prezzo/prestazioni di 30 volte.
Il risultato di Nestlé è un carico di lavoro di analisi strutturato. Non indica direttamente le prestazioni di inferenza dell’agente. Ma questo incarna l’argomentazione comune di IBM e Nvidia: il livello dati è il luogo in cui le prestazioni dell’intelligenza artificiale aziendale sono attualmente limitate e l’accelerazione GPU produce risultati significativi nella produzione.
Perché il livello di storage sta diventando una decisione infrastrutturale premium
STX è un segno che il livello di storage sta diventando una considerazione di prim’ordine nella pianificazione dell’infrastruttura AI aziendale, piuttosto che un ripensamento nel provisioning della GPU. Il NAS per scopi generici e l’archiviazione di oggetti non sono progettati per servire i dati della cache KV con requisiti di latenza di inferenza. I sistemi basati su STX di partner come Dell, HPE, NetApp e VAST Data sono i sistemi che Nvidia propone come alternativa pratica; La piattaforma software DOCA fornisce un livello di programmabilità per ottimizzare il comportamento dello storage per carichi di lavoro intermediati specifici.
Le prestazioni dichiarate (velocità di trasmissione delle monete 5x, efficienza energetica 4x, recupero dati 2x) vengono misurate rispetto alle tradizionali architetture di storage basate su CPU. Nvidia non ha specificato l’esatta configurazione di base per questi benchmark. Prima che questi numeri influenzino le decisioni infrastrutturali, vale la pena definire il punto di riferimento.
Si prevede che le piattaforme arriveranno dai partner nella seconda metà del 2026. Dato che la maggior parte dei principali fornitori di storage sta già coprogettando su STX, le organizzazioni che stanno valutando l’aggiornamento dello storage per l’infrastruttura AI nei prossimi 12 mesi dovrebbero aspettarsi che le opzioni basate su STX diventino disponibili attraverso i rapporti esistenti con i fornitori.















