Mentre l’intelligenza artificiale delle agenzie passa dagli esperimenti ai carichi di lavoro di produzione reale, viene al centro dell’attenzione un problema infrastrutturale silenzioso ma serio: la memoria. Non è un calcolo. Non modelli. Memoria.

In sintesi, le GPU di oggi non hanno spazio sufficiente per contenere le cache dei valori-chiave (KV) che i moderni agenti IA di lunga durata utilizzano per mantenere il contesto. Il risultato sono molti sprechi invisibili: le GPU ripetono il lavoro già svolto, i costi del cloud aumentano e le prestazioni subiscono un duro colpo. Questo è già un problema che si verifica negli ambienti di produzione, anche se la maggior parte delle persone non lo ha ancora nominato.

Durante una recente tappa della VentureBeat AI Impact Series, il CTO di WEKA Shimon Ben-David si è unito al CEO di VentureBeat Matt Marshall per rivelare l’emergente “muro di memoria” del settore e il motivo per cui è diventato uno dei maggiori ostacoli al ridimensionamento dei sistemi AI con agenti veramente stateful in grado di ricordare e basare il contesto nel tempo. Il discorso non solo ha diagnosticato il problema; Ha introdotto un modo completamente nuovo di pensare alla memoria, attraverso un approccio che WEKA chiama token storage.

Problema di memoria della GPU

“Quando esaminiamo l’infrastruttura dell’inferenza, vediamo che non si tratta di un problema di ciclo della GPU, ma principalmente di un problema di memoria della GPU”, ha affermato Ben-David.

La radice del problema risiede nel funzionamento dei modelli di trasformatori. Per generare risposte, si affidano alle cache KV che memorizzano informazioni contestuali per ciascun token in una conversazione. Più lunga è la finestra di contesto, maggiore è la quantità di memoria consumata da queste cache, che si riempie rapidamente. Ben-David ha osservato che un singolo array di 100.000 monete potrebbe richiedere circa 40 GB di memoria GPU.

Questo non sarebbe un problema se le GPU avessero memoria illimitata. Ma non lo fanno. Anche le GPU più avanzate hanno circa 288 GB di memoria ad alta larghezza di banda (HBM), e questo spazio deve ospitare anche il modello stesso.

Negli ambienti di inferenza multi-tenant del mondo reale questo diventa rapidamente una seccatura. Carichi di lavoro come lo sviluppo di codice o l’elaborazione delle dichiarazioni dei redditi fanno molto affidamento sulla cache KV per il contesto.

“Se sto caricando tre o quattro PDF da 100.000 token in un modello, è tutto; ho esaurito la capacità della cache KV nell’HBM”, ha affermato Ben-David. Questo è ciò che è noto come il muro della memoria. “All’improvviso, ciò che l’ambiente di inferenza è costretto a fare è eliminare i dati," ha aggiunto.

Ciò significa che le GPU eliminano costantemente il contesto di cui avranno bisogno presto, impedendo agli agenti di diventare stateful e mantenendo conversazioni e contesto nel tempo

imposta inferenziale latente

“Vediamo le GPU ricalcolare costantemente cose che hanno già fatto negli ambienti di inferenza,” ha detto Ben-David. I sistemi preriempiscono la cache KV, iniziano la decodifica, quindi esauriscono lo spazio e scaricano i dati precedenti. Quando questo contesto torna ad essere necessario, l’intero processo viene ripetuto; precompilare, decodificare, riempire. Su larga scala, si tratta di un’enorme quantità di lavoro sprecato. Ciò significa anche energia sprecata, latenza aggiuntiva e scarsa esperienza utente; Mentre tutto ciò accade, i margini si restringono.

Questi sprechi di ricalcolo della GPU compaiono direttamente nel bilancio. Le organizzazioni possono sostenere un sovraccarico di quasi il 40% a causa di cicli di prepopolamento non necessari. Ciò crea effetti a catena nel mercato delle inferenze.

“Se si guardano i prezzi dei principali fornitori di modelli come Anthropic e OpenAI, in realtà stanno insegnando agli utenti a strutturare i loro prompt in un modo che aumenta la probabilità che raggiungano la stessa GPU in cui è archiviata la cache KV”, ha affermato Ben-David. “Se si spinge quella GPU, il sistema può saltare la fase di prepopolamento e iniziare immediatamente la decodifica, consentendo loro di generare più token in modo più efficiente.”

Tuttavia, ciò non risolve ancora il problema infrastrutturale sottostante causato dalla capacità di memoria della GPU estremamente limitata.

Risolvere l’IA con stato

“Come aggirare questo muro di memoria? Come superarlo? Questa è la chiave per un’inferenza moderna ed economicamente vantaggiosa”, ha detto Ben-David. “Stiamo vedendo diverse aziende che cercano di risolvere questo problema in modi diversi.”

Alcune organizzazioni stanno utilizzando nuovi modelli lineari cercando di creare cache KV più piccole. Altri si concentrano sull’ottimizzazione dell’efficienza della cache.

“Per essere più efficienti, le aziende utilizzano ambienti che calcolano la cache KV su una GPU e quindi provano a copiarla dalla memoria della GPU o utilizzano un ambiente nativo per farlo”, ha spiegato Ben-David. “Ma come potete farlo su larga scala ed economicamente vantaggioso senza gravare sulla vostra memoria e sulla vostra rete? Questo è qualcosa che WEKA aiuta i nostri clienti a fare.”

Lanciare più GPU al problema non risolverà l’ostacolo della memoria AI. “Ci sono alcuni problemi che non puoi spendere abbastanza soldi per risolvere." Ben-David ha detto.

Descrizione dell’aumento della memoria e dell’archiviazione dei token

La risposta di WEKA è ciò che chiama memoria aumentata e archiviazione di token; KV è un modo per ripensare dove e come risiedono i dati della cache. La Augmented Memory Grid di WEKA espande la cache KV in uno “storage” veloce e condiviso all’interno dell’architettura NeuralMesh, invece di forzare tutto a inserirsi nella memoria della GPU.

In pratica, questo trasforma la memoria da un vincolo rigido in una risorsa scalabile senza aggiungere latenza di inferenza. WEKA afferma che i clienti vedono aumentare i tassi di successo della cache KV al 96-99% per i carichi di lavoro intermediati e guadagni di efficienza fino a 4,2 volte i token generati per GPU.

Ben-David lo spiega semplicemente: "Immagina di avere 100 GPU che generano una certa quantità di token. Ora immagina che queste centinaia di GPU funzionino come 420 GPU."

Per i grandi fornitori di inferenza, il risultato non è solo una migliore prestazione, ma si traduce anche direttamente in un impatto economico reale.

“Stiamo esaminando alcuni casi d’uso in cui il risparmio sarebbe di milioni di dollari al giorno semplicemente aggiungendo il livello di cache KV accelerato”, ha affermato Ben-David.

Questo moltiplicatore di efficienza apre anche nuove opzioni strategiche per le imprese. I team della piattaforma possono progettare agenti con stato senza preoccuparsi di esaurire i budget di memoria. I fornitori di servizi possono offrire livelli di prezzi persistenti basati sul contesto con inferenza memorizzata nella cache disponibile a costi notevolmente inferiori.

cosa c’è dopo

NVIDIA prevede un aumento di 100 volte della domanda di inferenza poiché l’intelligenza artificiale delle agenzie diventerà il carico di lavoro dominante. Questa pressione si sta già diffondendo dagli hyperscaler alle implementazioni aziendali quotidiane; Questo non è più solo un problema di “grande tecnologia”.

Man mano che le aziende passano dalle prove di concetto ai sistemi di produzione effettivi, la persistenza della memoria diventa una questione infrastrutturale fondamentale. Le organizzazioni che considerano questa priorità come una priorità architetturale piuttosto che come un ripensamento otterranno un chiaro vantaggio sia in termini di costi che di prestazioni.

Un muro della memoria non è qualcosa su cui le organizzazioni possono facilmente investire denaro per superare. Man mano che l’IA degli autori di reati cresce, è una delle prime frontiere dell’infrastruttura AI a imporre un ripensamento più profondo e, come chiariscono le intuizioni di Ben-David, la memoria potrebbe anche essere il luogo in cui inizia la prossima ondata di differenziazione competitiva.

Collegamento alla fonte