Poiché i Large Language Models (LLM) espandono le finestre di contesto per gestire documenti di grandi dimensioni e conversazioni complesse, "Collo di bottiglia della cache dei valori-chiave (KV)."

Ogni parola elaborata da un modello deve essere archiviata come vettore ad alta dimensione nella memoria ad alta velocità. Per compiti di lunga durata questo "foglio informativo digitale" Si gonfia rapidamente, consumando il sistema VRAM (Video Random Access Memory) dell’unità di elaborazione grafica (GPU) utilizzato durante l’inferenza, causando un rapido degrado delle prestazioni del modello nel tempo.

Ma non temere, Google Research è qui: ieri, L’unità del colosso della ricerca rilascia la suite di algoritmi TurboQuant — una svolta esclusivamente software che fornisce il modello matematico per la compressione estrema della cache KV, Fornisce una riduzione media di 6 volte della quantità di memoria KV Cosa utilizza un particolare modello e Aumento delle prestazioni di 8 volte nei record di attenzione informatica, Ciò può ridurre i costi di oltre il 50% per le aziende che lo implementano nei loro modelli.

Gli algoritmi basati sulla teoria e i relativi documenti di ricerca sono ora disponibili gratuitamente al pubblico, anche per uso istituzionale, e forniscono una soluzione senza formazione per ridurre le dimensioni del modello senza sacrificare l’intelligenza.

L’arrivo di TurboQuant è il culmine di un processo di ricerca pluriennale che inizia nel 2024. PolarQuant E Johnson-Lindenstrauss quantizzato (QJL)— Documentata all’inizio del 2025, la loro pubblicazione ufficiale oggi segna il passaggio dalla teoria accademica alla realtà della produzione su larga scala.

Il momento è strategico e coincide con la presentazione di questi risultati nelle prossime conferenze. Conferenza internazionale sulle rappresentazioni dell’apprendimento (ICLR 2026) a Rio de Janeiro, Brasile e Conferenza annuale su Intelligenza Artificiale e Statistica (AISTATS 2026) A Tangeri, in Marocco.

Google fornisce informazioni essenziali pubblicando queste metodologie in un quadro di ricerca aperto. "idraulico" per prosperare "Agente AI" era: la necessità di una memoria vettorizzata massiccia, efficiente e ricercabile che potesse finalmente funzionare su hardware già posseduti dagli utenti. Attualmente si ritiene (forse è sbagliato) che ciò abbia un impatto sul mercato azionario, facendo scendere i prezzi dei fornitori di memoria, poiché gli investitori vedono questo rilascio come un segno che sarà necessaria meno memoria. Il paradosso di Jevons).

L’architettura della memoria: risolvere l’imposta sulla produttività

Per capire perché TurboQuant è importante, devi prima capire: "tassa sulla memoria" La tradizionale quantizzazione vettoriale della moderna intelligenza artificiale è stata storicamente a "che perde" processo.

Risultato quando i numeri decimali ad alta precisione vengono compressi in numeri interi semplici "errore di quantizzazione" si accumula e alla fine fa sì che i modelli abbiano allucinazioni o perdano coerenza semantica.

Inoltre, la maggior parte dei metodi esistenti "costanti di quantizzazione"— metadati archiviati insieme ai bit compressi per indicare al modello come decomprimerli. In molti casi, queste costanti aggiungono così tanto sovraccarico (a volte da 1 a 2 bit per numero) da annullare completamente i guadagni della compressione.

TurboQuant risolve questo paradosso con uno scudo matematico a due stadi. La prima fase utilizza PolarQuant, che reinventa il modo in cui mappiamo lo spazio ad alta dimensione.

Invece di utilizzare le coordinate cartesiane standard (X, Y, Z), PolarQuant converte i vettori in coordinate polari costituite da un raggio e un insieme di angoli.

La svolta sta nella geometria: dopo una rotazione casuale, la distribuzione di questi angoli diventa abbastanza prevedibile e concentrata. Perché "forma" Poiché la percentuale dei dati è ora nota, il sistema non ha più bisogno di memorizzare costose costanti di normalizzazione per ciascun blocco di dati. Elimina il sovraccarico che i metodi tradizionali devono sostenere mappando i dati su una griglia circolare fissa.

La seconda fase funge da controllo degli errori matematici. Nonostante l’efficienza di PolarQuant, rimangono alcuni errori. TurboQuant applica una trasformazione Johnson-Lindenstrauss (QJL) quantizzata a 1 bit ai dati rimanenti. Riducendo ciascun numero di errore a un semplice bit di segno (+1 o -1), QJL agisce come uno stimatore a distorsione zero. Ciò consente quando il modello esegue un calcolo: "punteggio di attenzione"—il processo vitale di decidere quali parole in un prompt sono più rilevanti—la versione compressa rimane statisticamente identica all’originale ad alta precisione.

Benchmark delle prestazioni e affidabilità nel mondo reale

Il vero test di qualsiasi algoritmo di compressione è "L’ago nel pagliaio" Benchmark che valuta se un’intelligenza artificiale riesce a trovare una singola frase specifica nascosta tra 100.000 parole.

Nei test su modelli open source come Llama-3.1-8B e Mistral-7B, TurboQuant ha ottenuto eccellenti punteggi di richiamo, rispecchiando le prestazioni dei modelli non compressi. Riduzione dell’impronta della cache KV di almeno 6 volte.

Questo "neutralità qualitativa" È raro nel mondo della sovraquantizzazione, dove i sistemi a 3 bit spesso subiscono un significativo degrado logico.

Oltre ai chatbot, TurboQuant è un trasformatore per la ricerca ad alta dimensione. I motori di ricerca moderni si affidano sempre più a "ricerca semantica," Confrontando i significati di miliardi di vettori anziché semplicemente abbinando parole chiave. TurboQuant richiede un tempo di indicizzazione praticamente pari a zero, ottenendo allo stesso tempo tassi di richiamo superiori rispetto ai metodi all’avanguardia esistenti come RabbiQ e Product Quantization (PQ).

Ciò lo rende un candidato ideale per le applicazioni in tempo reale in cui i dati vengono continuamente aggiunti a un database e devono essere immediatamente ricercabili. Inoltre, l’implementazione a 100 bit di TurboQuant su hardware come gli acceleratori NVIDIA H4 ha ottenuto un aumento delle prestazioni di 8 volte nei registri di attenzione del calcolo; Si tratta di un’accelerazione fondamentale per le implementazioni nel mondo reale.

Reazione entusiasta della comunità

La reazione a X ottenuta attraverso la ricerca di Grok prevedeva un mix di fascinazione tecnica e immediata sperimentazione pratica.

Annuncio originale da @GoogleResearch Ha generato un enorme coinvolgimento con oltre 7,7 milioni di visualizzazioni, segnalando che l’industria stava cercando una soluzione alla crisi della memoria.

Entro 24 ore dal rilascio, i membri della comunità hanno iniziato a trasferire l’algoritmo su popolari librerie di intelligenza artificiale nativa come: MLX per Apple Silicone E chiamata.cpp.

analista tecnico @Prince_Canuma Ha condiviso una delle prime valutazioni più interessanti, applicando TurboQuant in MLX per testare il modello Qwen3.5-35B.

Ha riportato corrispondenze esatte al 100% a ogni livello di quantizzazione con lunghezze di contesto comprese tra 8,5K e 64K token, sottolineando che TurboQuant a 2,5 bit riduce la cache KV di quasi 5 volte con una perdita di precisione pari a zero. Questa convalida nel mondo reale ha replicato la ricerca interna di Google, dimostrando che i vantaggi dell’algoritmo si trasferiscono perfettamente a modelli di terze parti.

Altri utenti si sono concentrati sulla democratizzazione dell’IA ad alte prestazioni. @NoahEpstein_ Ha fornito una semplice analisi in inglese, sostenendo che TurboQuant riduce in modo significativo il divario tra l’intelligenza artificiale nativa gratuita e i costosi abbonamenti cloud.

Modelli che funzionano in modo nativo su hardware consumer come Mac Mini "è diventato notevolmente migliore," consente conversazioni del valore di 100.000 monete senza il tipico degrado della qualità.

Allo stesso modo, @PrajwalTomar_ ha sottolineato i vantaggi in termini di sicurezza e velocità della corsa "modelli di intelligenza artificiale pazzeschi localmente gratuitamente," espressione "grande rispetto" A causa della decisione di Google di condividere la ricerca anziché mantenerla privata.

Impatto sul mercato e futuro dell’hardware

Il lancio di TurboQuant sta già facendo scalpore nell’economia tecnologica più ampia. Dopo l’annuncio di martedì, gli analisti hanno osservato una tendenza al ribasso nei prezzi delle azioni dei principali fornitori di memorie, tra cui Micron e Western Digital.

La risposta del mercato riflette la consapevolezza che l’insaziabile domanda di memoria ad alta larghezza di banda (HBM) potrebbe essere ridotta dall’efficienza algoritmica se i giganti dell’intelligenza artificiale potessero comprimere i requisiti di memoria fino a sei volte attraverso il solo software.

Mentre ci avviciniamo al 2026, l’arrivo di TurboQuant suggerisce che la prossima era del progresso dell’intelligenza artificiale sarà definita tanto dall’eleganza matematica quanto dalla forza bruta. Google sta ridefinendo l’efficienza attraverso la compressione estrema, consentendo: "movimento della memoria più intelligente" per broker multi-step e pipeline di accesso dense. L’industria sta cambiando il suo focus "modelli più grandi" con "memoria migliore," Un cambiamento che potrebbe ridurre i costi dei servizi di intelligenza artificiale a livello globale.

Considerazioni strategiche per i decisori aziendali

Per le organizzazioni che già utilizzano o perfezionano i propri modelli di intelligenza artificiale, il lancio di TurboQuant offre una rara opportunità di miglioramento operativo immediato.

A differenza di molte scoperte sull’intelligenza artificiale che richiedono costose riqualificazioni o set di dati specializzati, TurboQuant non richiede formazione ed è indipendente dai dati.

Ciò significa che le organizzazioni possono applicare queste tecniche di quantizzazione ai loro modelli ottimizzati esistenti (siano essi basati su Llama, Mistral o Gemma di Google) per realizzare risparmi e accelerazioni immediati di memoria senza compromettere le prestazioni personalizzate che stanno cercando di creare.

Da un punto di vista pratico, i team IT e DevOps aziendali dovrebbero considerare i seguenti passaggi per integrare questa ricerca nelle loro operazioni:

Ottimizza le pipeline di inferenza: L’integrazione di TurboQuant nei server di inferenza di produzione può potenzialmente ridurre i costi del cloud computing del 50% o più riducendo il numero di GPU necessarie per servire applicazioni a lungo contesto.

Estendi le capacità del contesto: Le organizzazioni che lavorano con enormi documenti interni possono ora fornire finestre di contesto molto più lunghe per attività di recupero di generazione aumentata (RAG) senza l’enorme sovraccarico di VRAM che in precedenza rendeva tali funzionalità proibitive.

Sviluppare distribuzioni locali: Per le organizzazioni con severi requisiti di privacy dei dati, TurboQuant consente di eseguire modelli su larga scala e ad alta capacità su hardware locale o dispositivi edge che in precedenza erano inadeguati per pesi di modello a 32 bit o addirittura a 8 bit.

Rivalutare l’approvvigionamento hardware: Prima di investire in massicci cluster GPU HBM, i leader operativi dovrebbero valutare quanti dei loro colli di bottiglia possono essere risolti attraverso guadagni di efficienza guidati dal software.

In definitiva, TurboQuant dimostra che la frontiera dell’intelligenza artificiale non riguarda solo il numero di transistor che possiamo inserire in un chip, ma anche l’eleganza con cui possiamo tradurre l’infinita complessità delle informazioni nello spazio finito di un bit digitale. Per l’organizzazione, questo è più di un semplice documento di ricerca; è uno sblocco tattico che trasforma l’equipaggiamento esistente in una risorsa significativamente più potente.

Collegamento alla fonte