Le applicazioni AI aziendali che gestiscono documenti di grandi dimensioni o attività a lungo termine devono affrontare un grave collo di bottiglia della memoria. Man mano che il contesto si allunga, aumenta anche la cache KV, che è l’area in cui è archiviata la memoria di lavoro del modello.
Una nuova tecnica sviluppata dai ricercatori del MIT affronta questa sfida con un metodo di compressione veloce per la cache KV. La tecnica chiamata Corrispondenza dell’attenzioneRiesce a comprimere il contesto fino a 50x con poca perdita di qualità.
Sebbene non sia l’unica tecnica di compressione della memoria disponibile, Attention Matching si distingue per la sua velocità di esecuzione e le impressionanti capacità di conservazione delle informazioni.
Collo di bottiglia della memoria della cache KV
I modelli linguistici di grandi dimensioni generano le loro risposte in sequenza, un token alla volta. Il modello memorizza una rappresentazione matematica di ogni token precedente elaborato, noto anche come coppie chiave-valore, per evitare di ricalcolare da zero l’intera cronologia delle conversazioni per ogni parola prevista. Questa memoria di lavoro critica è nota come cache KV.
La cache KV si ridimensiona con la durata della conversazione perché il modello è costretto a mantenere queste chiavi e valori per tutti i token precedenti in una determinata interazione. Ciò consuma costose risorse hardware. "In pratica, la cache KV è il più grande collo di bottiglia nel servire modelli in contesti ultra-lunghi." Adam Zweiger, coautore dello studio, ha dichiarato a VentureBeat: "Limita la concorrenza, impone batch più piccoli e/o richiede un offload più aggressivo."
Nei moderni casi d’uso aziendali, come l’analisi di massicci contratti legali, il mantenimento di dialoghi con i clienti multisessione o l’esecuzione di agenti di codifica autonomi, la cache KV può gonfiarsi fino a molti gigabyte di memoria per una singola richiesta dell’utente.
Per risolvere questo enorme collo di bottiglia, l’industria dell’intelligenza artificiale ha provato varie strategie, ma questi metodi non sono all’altezza se utilizzati in ambienti aziendali in cui è richiesta una compressione estrema. Una classe di soluzioni tecniche prevede l’ottimizzazione della cache KV rimuovendo i token che il modello ritiene meno importanti o combinando token simili in un’unica rappresentazione. Secondo gli autori, queste tecniche funzionano per la compressione leggera ma “si deteriorano rapidamente a tassi di riduzione elevati”.
Le applicazioni del mondo reale spesso si basano su tecniche più semplici; l’approccio più comune consiste semplicemente nell’eliminare il vecchio contesto quando viene raggiunto il limite di memoria. Tuttavia, questo approccio fa sì che il modello perda le vecchie informazioni man mano che il contesto diventa più lungo. Un’altra alternativa è il riepilogo del contesto, in cui il sistema si ferma, scrive un breve riassunto testuale del vecchio contesto e sostituisce la memoria originale con questo riepilogo. Sebbene si tratti di uno standard di settore, il riepilogo comporta notevoli perdite e danneggia notevolmente le prestazioni a valle poiché può rimuovere informazioni rilevanti dal contesto.
Recenti ricerche hanno dimostrato che è tecnicamente possibile comprimere notevolmente questa memoria Utilizzando un metodo chiamato cartucce. Tuttavia, questo approccio richiede l’addestramento di modelli di cache KV nascosti attraverso un’ottimizzazione matematica lenta ed end-to-end. Questo addestramento basato sul gradiente può richiedere diverse ore su GPU costose solo per comprimere un singolo contesto, rendendolo completamente inutilizzabile per le applicazioni aziendali in tempo reale.
Come comprimere l’attenzione corrispondente senza costi
La corrispondenza dell’attenzione è molto più veloce dell’ottimizzazione basata sul gradiente e consente di ottenere rapporti di compressione e qualità elevati. Evita il lento processo di addestramento con intelligenti trucchi matematici.
I ricercatori si sono resi conto che per imitare perfettamente il modo in cui un’intelligenza artificiale interagisce con la sua memoria, dovevano preservare due proprietà matematiche comprimendo al contempo la chiave originale e i vettori dei valori in uno spazio più piccolo. Il primo di questi è l’“output di attenzione”, ovvero l’informazione vera e propria che l’IA estrae quando interroga la sua memoria. Il secondo è la “massa di attenzione”, che funge da peso matematico che un token ha rispetto a tutto il resto nella memoria di lavoro del modello. Se la memoria compressa può soddisfare queste due proprietà, si comporterà esattamente come la grande memoria originale, anche se in seguito verranno aggiunte nuove e imprevedibili richieste da parte dell’utente.
"L’Attention Matching è in un certo senso l’obiettivo “giusto” per eseguire la compressione del contesto latente; perché ogni attenzione mira direttamente a preservare il comportamento della testa dopo la compressione." disse Zweiger. Sebbene il rilascio dei token e le relative euristiche possano funzionare, la corrispondenza esplicita del comportamento di attenzione porta a risultati migliori.
Prima di comprimere la memoria, il sistema crea un piccolo insieme di “query di riferimento” che fungono da proxy per i tipi di ricerche interne che il modello potrebbe eseguire quando ragiona su un particolare contesto. Se la memoria compressa può rispondere accuratamente a queste domande di riferimento, probabilmente riuscirà a rispondere successivamente alle domande effettive dell’utente. Gli autori suggeriscono diversi metodi per creare queste query di riferimento, inclusa l’aggiunta di un prompt nascosto al documento che dice al modello di ripetere il contesto precedente, noto come tecnica di “ripetizione-preriempimento”. Suggeriscono anche un approccio di “autoapprendimento”, in cui al modello viene chiesto di eseguire alcune rapide attività sintetiche sul documento, come raccogliere insieme tutti i fatti importanti o strutturare date e numeri in un formato JSON.
Con queste query in mano, il sistema seleziona un set di chiavi da archiviare nella cache KV compressa in base a segnali come il valore di attenzione più alto. Quindi utilizza le chiavi e le query di riferimento insieme al termine di polarizzazione scalare per calcolare i valori corrispondenti. Questa distorsione garantisce che le informazioni rilevanti vengano preservate e consente a ciascuna chiave conservata di rappresentare la massa di molte chiavi rimosse.
Questa formulazione consente di abbinare valori con semplici tecniche algebriche come i minimi quadrati ordinari e i minimi quadrati non negativi, evitando completamente l’ottimizzazione basata sul gradiente ad alta intensità di calcolo. Questo è ciò che rende la corrispondenza dell’attenzione super veloce rispetto ai metodi di compressione pesantemente ottimizzati. I ricercatori stanno anche applicando la compressione a tratti elaborando pezzi adiacenti di input in modo indipendente e combinandoli per migliorare ulteriormente le prestazioni in contesti lunghi.
Corrispondenza dell’attenzione in azione
Per comprendere come funziona questo metodo nel mondo reale, i ricercatori hanno eseguito una serie di stress test su due diversi tipi di set di dati aziendali utilizzando modelli open source popolari come Llama 3.1 e Qwen-3. Il primo era la QUALITÀ, un criterio standard di comprensione della lettura che utilizza documenti da 5.000 a 8.000 parole. Il secondo, che ha rappresentato una vera sfida istituzionale, è stato LongHealth, un set di dati molto denso di 60.000 token contenente cartelle cliniche complesse di un gran numero di pazienti.
La scoperta principale è stata che l’Attention Matching ha impiegato solo pochi secondi per elaborare i documenti comprimendo la cache KV del modello di un fattore 50 senza ridurre la precisione. In precedenza, per ottenere lo stesso livello di qualità, le cartucce richiedevano ore di elaborazione GPU intensiva per contesto.
Le soluzioni standard del settore falliscono completamente quando si ha a che fare con cartelle cliniche dense. I ricercatori hanno notato che quando hanno provato a utilizzare il riepilogo testuale standard su queste cartelle cliniche, l’accuratezza del modello è diminuita così tanto da corrispondere alla linea di base “priva di contesto”, il che significa che l’IA ha funzionato come se non avesse mai letto il documento.
La corrispondenza dell’attenzione supera significativamente il riepilogo, ma gli architetti aziendali dovranno ridurre il rapporto di compressione per le attività intensive rispetto ai test di comprensione della lettura più semplici. Come spiega Zweiger: "Il principale compromesso pratico è che se stai cercando di preservare quasi tutto nel contesto in attività ad alta intensità di informazioni, generalmente hai bisogno di un rapporto di compressione più morbido per mantenere una forte fedeltà."
I ricercatori hanno anche studiato cosa succede quando non è richiesta la precisione assoluta ma è necessario un risparmio di memoria estremo. Hanno eseguito la corrispondenza dell’attenzione sopra un riepilogo testuale standard. Questo approccio combinato ha raggiunto una compressione 200x. Ha eguagliato con successo la precisione del solo hashing standard, ma con un ingombro di memoria molto ridotto.
Un esperimento interessante per i flussi di lavoro aziendali è stato testare la compressione online, ma notano che si tratta di una prova di concetto e non è stata rigorosamente testata in ambienti di produzione. I ricercatori hanno testato il modello nel test di ragionamento matematico avanzato AIME. Hanno sfidato l’intelligenza artificiale a risolvere un problema con un limite di memoria fisica strettamente limitato. Quando la memoria del modello era piena, il sistema si fermava, utilizzava la mappatura dell’attenzione per comprimere immediatamente la sua memoria di lavoro del 50% e consentirgli di continuare a pensare. Anche dopo aver colpito il muro della memoria e aver ridotto ripetutamente la cache KV fino a sei volte a metà del pensiero, il modello ha risolto con successo i problemi di matematica. Le sue prestazioni corrispondevano a quelle di un modello con memoria molto grande e illimitata.
Ci sono avvertenze da considerare. Con un rapporto di compressione di 50x, Attention Matching è il chiaro vincitore nel bilanciare velocità e qualità. Tuttavia, se un’organizzazione tenta di spingere la compressione fino a limiti estremi, fino a 100 volte, su dati estremamente complessi, il metodo Cartucce, più lento e basato sul gradiente, in realtà supererà tale risultato.
Lo hanno spiegato i ricercatori Attenzione Codice di abbinamento. Tuttavia, notano che al momento non si tratta di un semplice aggiornamento software plug-and-play. "Penso che la compressione latente sia considerata la migliore tecnica per il livello del modello." Note di Zweiger: "Sebbene possa essere applicato su qualsiasi modello esistente, richiede l’accesso ai pesi del modello." Ciò significa che le organizzazioni che si affidano ad API completamente chiuse non possono implementarle da sole; Hanno bisogno di modelli a peso aperto.
Gli autori notano che l’integrazione di questa compressione KV dello spazio latente nei motori di inferenza commerciali esistenti e altamente ottimizzati richiede ancora uno sforzo significativo. La moderna infrastruttura di intelligenza artificiale utilizza trucchi complessi come la memorizzazione nella cache dei prefissi e l’imballaggio della memoria a lunghezza variabile per mantenere i server in esecuzione in modo efficiente e l’integrazione perfetta di questa nuova tecnica di compressione nei sistemi esistenti richiede un lavoro di ingegneria specializzato. Ma ci sono urgenti applicazioni istituzionali. "Riteniamo che la compressione post-acquisizione sia un caso d’uso promettente in cui gli output delle chiamate di team di grandi dimensioni o i documenti lunghi vengono compressi immediatamente dopo l’elaborazione." disse Zweiger.
In definitiva, sostiene Zweiger, il passaggio alla compressione meccanica e dello spazio latente è in linea con le future roadmap dei prodotti dei principali attori dell’intelligenza artificiale. "Stiamo assistendo all’evoluzione della compressione da qualcosa che le aziende implementano autonomamente a qualcosa offerto dai fornitori di modelli." disse Zweiger. "Ciò è ancora più vero per la compressione latente, dove è richiesto l’accesso ai pesi del modello. Ad esempio, OpenAI ora espone un endpoint di compressione black-box che restituisce un oggetto opaco invece di un digest di testo normale."















