Home Notizia L’algoritmo di compressione AI TurboQuant di Google può ridurre l’utilizzo della memoria...

Notizia

L’algoritmo di compressione AI TurboQuant di Google può ridurre l’utilizzo della memoria LLM di 6 volte

25 Marzo 2026

Anche se non sai molto del funzionamento interno dei modelli di intelligenza artificiale generativa, probabilmente sai che richiedono molta memoria. Pertanto, acquistare un piccolo stick di RAM ora è quasi impossibile. Ricerca Google di recente Rilascio TurboQuantUn algoritmo di compressione che riduce l’ingombro della memoria dei modelli linguistici di grandi dimensioni (LLM) aumentando la velocità e mantenendo la precisione.

TurboQuant mira a ridurre la dimensione della cache dei valori-chiave, che Google paragona a un “cheat sheet digitale” che memorizza informazioni importanti in modo che non debbano essere ricalcolate. Questo cheat sheet è necessario perché, come diciamo sempre, il LLM non sa veramente nulla; Possono sviluppare un’idea migliore della conoscenza delle cose attraverso l’uso di vettori, che mappano il significato semantico del testo tokenizzato. Quando due vettori sono uguali, significa che hanno una somiglianza concettuale.

I vettori ad alta dimensione, che possono contenere centinaia o migliaia di incorporamenti, possono descrivere informazioni complesse come i pixel in un’immagine o un set di dati di grandi dimensioni. Inoltre, occupano molta memoria e gonfiano le dimensioni della cache dei valori-chiave, ostacolando le prestazioni. Per rendere i modelli più piccoli e più efficienti, gli sviluppatori utilizzano tecniche di quantizzazione per eseguirli con una precisione inferiore. Lo svantaggio è che i risultati peggiorano: la qualità delle stime dei token diminuisce Con TurboQuant, i risultati preliminari di Google mostrano in alcuni test un aumento delle prestazioni di 8 volte e una riduzione dell’utilizzo della memoria di 6 volte tranne Perdita di qualità.

angoli e difetti

L’applicazione di TurboQuant a un modello AI è un processo in due fasi. Per ottenere una compressione di alta qualità, Google ha sviluppato un sistema chiamato Polar Quant. In genere, i vettori nei modelli AI vengono codificati utilizzando le coordinate XYZ standard, ma Polar Quant converte i vettori in coordinate polari nel sistema cartesiano. In questa griglia circolare, i vettori sono ridotti a due informazioni: un raggio (forza dei dati fondamentali) e una direzione (significato dei dati).

Collegamento alla fonte

L’algoritmo di compressione AI TurboQuant di Google può ridurre l’utilizzo della memoria LLM di 6 volte

angoli e difetti

Ultimo post

Kyle Richards Laura Geller Makeup Palette Amazon Grandi saldi primaverili

Riapertura cauta sotto pressione geopolitica – DBS

Stephen Colbert ha rivelato un nuovo progetto a sorpresa mesi prima...

I Rams potrebbero trovare un partner adatto per Matthew Stafford

La giuria ritiene Instagram e YouTube colpevoli di uno storico processo...

Olóndriz, alto funzionario del Tesoro, nominato nuovo presidente dell’Airef

Domande e risposte sui Rangers su emissione di azioni da 16...

I grandi saldi primaverili di Amazon offrono trattamenti per il cuoio...

Una palla di fuoco verde attraversa il cielo di Ridgefield nel...

La prova dello status legale è richiesta per le licenze professionali...

Gli ufficiali della TSA descrivono le lacrime, le scelte difficili e...

Come eseguire OpenClaw senza problemi nel 2026: MaxClaw e MiniMax M2.7

Categoria