Elaborare 200.000 token attraverso un modello linguistico di grandi dimensioni è costoso e lento: più lungo è il contesto, più rapida è la spirale dei costi. I ricercatori della Tsinghua University e Z.ai Sviluppato una tecnica chiamata IndexCache Ciò riduce fino al 75% il calcolo ridondante nei modelli di attenzione sparsa, con un conseguente tempo di primo token fino a 1,82 volte più veloce e un throughput 1,48 volte più veloce a questa lunghezza di contesto.
La tecnica è valida per i modelli che utilizzano l’architettura DeepSeek Sparse Attention, comprese le ultime famiglie DeepSeek e GLM. Può aiutare le organizzazioni a offrire esperienze utente più rapide per modelli su scala di produzione e contesto lungo; questa è una capacità già dimostrata nei test preliminari sul modello GLM-5 da 744 miliardi di parametri.
Collo di bottiglia del DSA
I grandi modelli linguistici si basano sul meccanismo di auto-attenzione, un processo in cui il modello calcola la relazione tra ciascun token nel suo contesto e tutti i precedenti per prevedere il token successivo.
Ma l’attenzione personale ha una seria limitazione. La complessità computazionale scala quadraticamente con la lunghezza della sequenza. Per le applicazioni che richiedono finestre di contesto estese (ad esempio, elaborazione di documenti di grandi dimensioni, flussi di lavoro di agenti in più fasi o ragionamento con una lunga catena di pensiero), questo ridimensionamento quadratico porta a basse velocità di inferenza e costi di elaborazione e memoria significativi.
attenzione poco frequente Offre una soluzione di principio a questo problema di ridimensionamento. L’attenzione scarsa ottimizza il processo garantendo che ogni query selezioni e unisca solo il sottoinsieme di token più rilevante, anziché calcolare la relazione tra ciascun token e tutti i suoi predecessori.
DeepSeek Attenzione rara (DSA) è un’implementazione altamente efficiente di questo concetto, introdotta per la prima volta nel 2010. DeepSeek-V3.2. DSA offre un’implementazione leggera per determinare quali token sono più importanti "modulo indicizzatore di fulmini" ad ogni strato del modello. Questo indicizzatore assegna un punteggio a tutti i token precedenti e seleziona un piccolo batch per l’elaborazione del meccanismo di attenzione principale. In questo modo, DSA riduce il calcolo dell’attenzione del kernel denso da quadratico a lineare e accelera significativamente il modello mantenendo la qualità dell’output.
Ma i ricercatori hanno identificato un difetto persistente: lo stesso indicizzatore DSA opera ancora con complessità quadratica su ogni livello. Sebbene l’indicizzatore sia computazionalmente più economico del processo di attenzione principale, il tempo che il modello dedica all’esecuzione di questi indicizzatori aumenta rapidamente con l’aumentare della lunghezza del contesto. Ciò rallenta seriamente il modello, soprattutto nelle fasi iniziali. "precompilare" La prima fase in cui viene elaborata la richiesta.
Caching dell’attenzione con IndexCache
Per risolvere il collo di bottiglia dell’indicizzatore, il team di ricerca ha scoperto una caratteristica cruciale del modo in cui i modelli DSA elaborano i dati. Il sottoinsieme di token importanti scelto da un indicizzatore rimane abbastanza stabile man mano che i dati avanzano attraverso strati successivi di trasformatori. Test empirici sui modelli DSA hanno rivelato che gli strati adiacenti condividono dal 70% al 100% dei token scelti.
Per sfruttare questa ridondanza multistrato, i ricercatori hanno sviluppato IndexCache. La tecnica divide gli strati del modello in due categorie. Un piccolo numero di livelli completi (F) mantengono i propri indicizzatori, assegnando attivamente un punteggio ai token e selezionando quelli più importanti da memorizzare nella cache. Il resto dei livelli viene condiviso (S), non viene eseguita alcuna indicizzazione e vengono riutilizzati gli indici memorizzati nella cache del livello precedente F più vicino.
Durante l’inferenza, il modello controlla solo il tipo di layer. Quando raggiunge uno strato F, calcola e memorizza nella cache nuovi indici. Se si tratta di un livello S, salta i calcoli e copia i dati memorizzati nella cache.
Esiste un’ampia varietà di tecniche di ottimizzazione che tentano di risolvere il collo di bottiglia dell’attenzione. Compressione della cache KVdove vengono memorizzati i valori di attenzione calcolati. Invece di ridurre lo spazio di memoria come avviene con la compressione della cache KV standard, IndexCache attacca il collo di bottiglia del calcolo.
“IndexCache non è una tradizionale tecnica di compressione o condivisione della cache KV”, ha detto a VentureBeat Yushi Bai, coautore dell’articolo. “Elimina questa ridondanza riutilizzando gli indici su più livelli, riducendo così il calcolo anziché solo l’impronta della memoria. È complementare e può essere combinato con gli approcci esistenti.”
I ricercatori hanno sviluppato due approcci di distribuzione per IndexCache. (Vale la pena notare che IndexCache si applica solo ai modelli che utilizzano l’architettura DSA, come gli ultimi modelli DeepSeek e l’ultima famiglia di modelli GLM.)
Per gli sviluppatori che lavorano con modelli DSA standard in cui la riqualificazione non è possibile o è troppo costosa, hanno creato un metodo senza formazione basato sull’algoritmo di “selezione del livello avido”. Questo algoritmo determina automaticamente il posizionamento ottimale degli strati F e S senza alcun aggiornamento del peso eseguendo un piccolo set di dati di calibrazione attraverso il modello. L’evidenza empirica mostra che l’algoritmo greedy può rimuovere in modo sicuro il 75% degli indicizzatori, rispettando al tempo stesso le prestazioni a valle del modello originale.
Per i team che si preparano in anticipo o che perfezionano pesantemente i loro modelli di base, i ricercatori consigliano una versione sensibile alla formazione che ottimizzi i parametri di rete per supportare in modo nativo la condivisione multilivello. Questo approccio provoca “perdita di distillazione multistrato” durante l’addestramento. Costringe ciascun indicizzatore mantenuto a imparare come selezionare un sottoinsieme di token che sarà altamente rilevante per tutti i livelli successivi che servirà.
Accelerazioni nel mondo reale nei modelli di produzione
Per testare l’impatto di IndexCache, i ricercatori lo hanno applicato a 30 miliardi di parametri. GLM-4.7Flash modello e confrontarlo con il riferimento standard.
Con una lunghezza del contesto di 200.000, la rimozione del 75% degli indicizzatori ha ridotto la latenza di precompilazione da 19,5 secondi a soli 10,7 secondi, con un conseguente aumento della velocità di 1,82 volte. Si prevede che queste accelerazioni saranno ancora maggiori in contesti più lunghi, osservano i ricercatori.
Durante la fase di decodifica in cui il modello ha generato la risposta, IndexCache ha ottenuto una velocità di 1,48 volte, aumentando il throughput per richiesta da 58 token al secondo a 86 token al secondo a 200.000 contrassegni di contesto. Quando la memoria del server era completamente piena di richieste, l’efficienza complessiva della decodifica aumentava fino al 51%.
Per i team aziendali, questi miglioramenti in termini di efficienza si traducono direttamente in risparmi sui costi. “Dal punto di vista del ROI, IndexCache offre vantaggi costanti in tutti gli scenari, ma i vantaggi sono più evidenti nei carichi di lavoro a lungo contesto come RAG, analisi di documenti e pipeline di broker”, ha affermato Bai. “In questi casi, osserviamo una riduzione di almeno il 20% circa dei costi di implementazione e miglioramenti simili nella latenza percepita dall’utente.” Ha aggiunto che per compiti di contesto molto brevi, i benefici sono intorno al 5%.
Sorprendentemente, questi guadagni di efficienza non hanno compromesso le capacità di giudizio. Utilizzando l’approccio non addestrato per eliminare il 75% degli indicizzatori, il modello 30B ha eguagliato il punteggio medio della linea di base originale su benchmark a lungo contesto, ottenendo un punteggio di 49,9 rispetto al 50,2 originale. Nella valutazione altamente complessa del ragionamento matematico AIME 2025, il modello ottimizzato ha effettivamente sovraperformato il riferimento originale, ottenendo un punteggio di 92,6 rispetto a 91,0.
Il team ha anche condotto esperimenti preliminari sul modello GLM-5 da 744 miliardi di parametri su scala di produzione. Hanno scoperto che eliminando il 75% degli indicizzatori con il metodo senza formazione si è ottenuta una velocità di almeno 1,3 volte in contesti superiori a 100.000 token. Allo stesso tempo, il modello ha mantenuto quasi la stessa qualità media nelle attività a lungo contesto.
Metti IndexCache in produzione
Per i team di sviluppo che oggi cercano di implementare l’approccio non istruito, il processo è semplice ma richiede un’attenta configurazione. Mentre l’algoritmo di ricerca avido trova automaticamente la configurazione ottimale dei livelli, la qualità di questa configurazione dipende dai dati che elabora.
“Raccomandiamo di utilizzare dati specifici del dominio come set di calibrazione in modo che il modello di condivisione dei livelli scoperto sia compatibile con i carichi di lavoro reali”, ha affermato Bai.
Una volta calibrata, l’ottimizzazione diventa altamente accessibile per gli ambienti di produzione. Già patch open source Disponibile su GitHub Per motori di grandi dimensioni. “L’integrazione è relativamente semplice; gli sviluppatori possono applicare la patch a stack di inferenza esistenti come vLLM o SGLang e abilitare IndexCache con modifiche minime alla configurazione”, ha affermato Bai.
Sebbene IndexCache fornisca soluzioni istantanee ai colli di bottiglia informatici odierni, la sua filosofia di base segnala un cambiamento più ampio nell’approccio del settore dell’intelligenza artificiale alla progettazione dei modelli.
“I modelli di base del futuro saranno probabilmente progettati tenendo presente fin dall’inizio i vincoli di inferenza a valle”, ha concluso Bai. “Ciò significa progetti che non sono solo scalabili in termini di dimensioni del modello, ma anche ottimizzati per il throughput e la latenza del mondo reale, anziché trattarli come problemi ad hoc”.















