I ricercatori di Nvidia hanno sviluppato una tecnica in grado di ridurre fino a otto volte i costi di memoria del ragionamento basato su modelli linguistici di grandi dimensioni. La loro tecnica si chiama scarsità di memoria dinamica (DMS) comprime la cache dei valori chiave (KV), generando e archiviando memoria temporanea mentre gli LLM elaborano richieste e ragionano su problemi e documenti.

Sebbene i ricercatori abbiano già proposto vari metodi per comprimere questa cache, la maggior parte ha difficoltà a farlo senza compromettere l’intelligenza del modello. L’approccio di Nvidia riesce a eliminare gran parte della cache preservando (e in alcuni casi migliorando) le capacità di ragionamento del modello.

Gli esperimenti mostrano che il DMS abilita i Master "pensare" Usalo più a lungo e scopri più soluzioni senza le consuete perdite di velocità o costi di memoria.

collo di bottiglia logico

Gli LLM migliorano le loro prestazioni su compiti complessi. "catena di pensiero" Essenzialmente scrivono i passaggi del ragionamento prima di arrivare alla risposta finale. Le tecniche di scalabilità temporale dell’inferenza sfruttano questo aspetto fornendo al modello un budget maggiore per generare questi token di pensiero o esplorare più potenziali percorsi di ragionamento in parallelo.

Tuttavia, questo ragionamento migliorato comporta un costo computazionale significativo. Poiché il modello genera più token, a Cache KV.

Per le applicazioni del mondo reale, la cache KV rappresenta un grosso collo di bottiglia. Man mano che la catena di ragionamento cresce, la cache cresce in modo lineare, consumando grandi quantità di memoria sulle GPU. Ciò costringe l’hardware a dedicare più tempo alla lettura dei dati dalla memoria rispetto al calcolo effettivo, rallentando il throughput e aumentando la latenza. Limita inoltre il numero di utenti che il sistema può servire contemporaneamente, poiché l’esaurimento della VRAM causerà l’arresto anomalo o il rallentamento del sistema.

I ricercatori di Nvidia lo considerano non solo un ostacolo tecnico, ma anche un ostacolo economico fondamentale per l’azienda.

"La domanda non riguarda solo la quantità di hardware; dipende se la tua infrastruttura elabora 100 thread di ragionamento o 800 thread allo stesso costo," Piotr Nawrot, ingegnere senior di deep learning di Nvidia, ha dichiarato a VentureBeat:

I precedenti tentativi di risolvere questo problema si sono concentrati su approcci basati sull’euristica. Questi metodi utilizzano regole rigide; "finestra scorrevole" questo memorizzerà nella cache solo i token più recenti ed eliminerà il resto. Sebbene ciò riduca l’utilizzo della memoria, spesso costringe il modello a scartare informazioni critiche necessarie per risolvere il problema, riducendo la precisione dell’output.

"I metodi di sfratto standard tentano di selezionare token obsoleti e non utilizzati per lo sfratto utilizzando l’euristica." hanno detto i ricercatori. "Semplificano il problema, sperando che avvicinandosi alla meccanica interna del modello la risposta rimanga corretta."

Altre soluzioni utilizzano il paging per svuotare porzioni inutilizzate della cache KV in una memoria più lenta, ma i dati in continua evoluzione introducono un sovraccarico di latenza che rallenta le applicazioni in tempo reale.

Sparsificazione dinamica della memoria

DMS adotta un approccio diverso: "rafforzamento" Consente agli attuali LLM di gestire la propria memoria in modo intelligente. Invece di applicare una regola fissa su cosa eliminare, DMS addestra il modello per determinare quali token sono necessari per ragionamenti futuri e quali sono usa e getta.

"Non solo predice l’importanza; apprende una politica che preserva esplicitamente la distribuzione dell’output finale del modello," Ha detto Nawrot.

Il processo trasforma un LLM standard e pre-addestrato, come Llama 3 o Qwen 3, in un modello autocompressivo. Ancora più importante, ciò non richiede l’addestramento del modello da zero, che sarebbe proibitivamente costoso. Invece, DMS riutilizza come output i neuroni esistenti negli strati di attenzione del modello. "castello" O "evacuazione" Segnale per ogni moneta.

I ricercatori hanno notato che il processo è stato progettato per essere leggero per i team preoccupati per la complessità della ristrutturazione. "Per aumentare l’efficienza di questo processo, i pesi del modello possono essere congelati, rendendo il processo simile all’adattamento di basso rango (LoRA)." Ha detto Nawrot. Ciò significa un modello aziendale standard come Qwen3-8B "Un singolo DGX H100 può essere dotato di DMS in poche ore."

Una delle parti importanti del DMS è un meccanismo chiamato "ritardare l’evacuazione." Nella rarefazione standard, se un token viene ritenuto non importante, viene immediatamente eliminato. Ciò è rischioso perché il modello potrebbe impiegare diversi secondi per integrare il contenuto del token nel suo stato attuale.

DMS allevia questa situazione contrassegnando un token per lo sfratto ma garantendo che rimanga accessibile per un breve periodo di tempo (ad esempio, poche centinaia di passaggi). Questo modello di ritardo "sottrarre" Raccogli tutte le informazioni necessarie rimanenti nel token e combinale con il contesto corrente prima che il token venga eliminato dalla cache KV.

“Il meccanismo di ‘sfratto ritardato’ è cruciale perché non tutti i token sono semplicemente ‘importanti’ (conservarli per sempre) o ‘inutili’ (cancellarli immediatamente). Molti si trovano nel mezzo; portano alcune informazioni, ma non abbastanza da giustificare l’occupazione di un intero spazio in memoria,” ha detto Nawrot. “È qui che sta la ridondanza. Tenendo questi token in una finestra locale per un breve periodo di tempo prima dello sfratto, consentiamo al modello di gestirli e di ridistribuire le loro informazioni sui token futuri.”

I ricercatori hanno scoperto che questo processo di rafforzamento è altamente efficiente. Possono dotare un LLM pre-addestrato con DMS in soli 1000 passaggi di formazione; questa è una frazione del calcolo richiesto per l’addestramento originale. I modelli risultanti utilizzano core standard e possono essere inseriti direttamente negli stack di inferenza ad alte prestazioni esistenti senza la necessità di hardware personalizzato o riscrittura di software complessi.

DMS in azione

Per convalidare la tecnica, i ricercatori hanno applicato il DMS a vari modelli di ragionamento, tra cui la serie Qwen-R1 (distillata da DeepSeek R1) e Llama 3.2, e li hanno testati su benchmark impegnativi come AIME 24 (matematica), GPQA Diamond (scienza) e LiveCodeBench (codifica).

I risultati mostrano che il DMS sposta effettivamente la frontiera di Pareto, che rappresenta l’equilibrio ottimale tra costi e prestazioni. Nel benchmark matematico AIME 24, un modello Qwen-R1 32B dotato di DMS ha ottenuto un punteggio di 12,0 punti superiore rispetto a un modello standard quando vincolato dallo stesso budget di larghezza di banda della memoria. Comprimendo la cache, il modello può ospitare: "pensare" È molto più profondo e più ampio del modello standard a parità di memoria e budget di elaborazione.

Forse la cosa più sorprendente è che il DMS sfida la saggezza convenzionale secondo cui la compressione compromette la comprensione del contesto lungo. Dentro "ago nel pagliaio" Nei test che misurano la capacità di un modello di trovare una specifica informazione sepolta in un documento di grandi dimensioni, le varianti DMS hanno effettivamente ottenuto risultati migliori rispetto ai modelli standard. Il modello ha fornito un contesto più pulito e utile gestendo attivamente la propria memoria anziché accumulare passivamente rumore.

I guadagni di efficienza per l’infrastruttura aziendale si traducono direttamente in risparmi sulla produzione e sull’hardware. Poiché la cache di memoria è significativamente più piccola, la GPU impiega meno tempo a recuperare i dati, riducendo i tempi di attesa degli utenti. Nei test con il modello Qwen3-8B, DMS ha fornito un throughput fino a 5 volte superiore, eguagliando la precisione del modello vanilla. Ciò significa che un singolo server può elaborare cinque volte più richieste dei clienti al secondo senza perdita di qualità.

Il futuro della memoria

Nvidia ha rilasciato DMS come parte del proprio programma. Libreria KVPress. Per quanto riguarda le modalità con cui le aziende possono iniziare a utilizzare il DMS, Nawrot ha sottolineato che la barriera all’ingresso è bassa. "L’infrastruttura minima praticabile è rappresentata dalle condutture standard di Hugging Face; non è richiesto alcun kernel CUDA speciale," Nawrot ha notato che il codice è completamente compatibile con FlashAttention standard.

Guardando al futuro, il team vede il DMS come parte di un cambiamento più ampio in cui la gestione della memoria diventa un livello separato e intelligente dello stack AI. Nawrot ha anche affermato che DMS "pienamente compatibile" con architetture più recenti come Attenzione nascosta multi-testa (MLA) è stato utilizzato nei modelli di DeepSeek e suggerisce che la combinazione di questi approcci potrebbe produrre guadagni di efficienza ancora maggiori.

Man mano che le aziende passano da semplici chatbot a complessi sistemi di agenti che richiedono un ragionamento più ampio, il costo dell’inferenza diventa una preoccupazione primaria. Tecniche come DMS forniscono un modo per scalare queste capacità in modo sostenibile.

"Abbiamo solo scalfito la superficie di ciò che è possibile," Nawrot ha detto: "e prevediamo che il ridimensionamento dei tempi di inferenza migliorerà ulteriormente."

Collegamento alla fonte