Anche se non sai molto del funzionamento interno dei modelli di intelligenza artificiale generativa, probabilmente sai che richiedono molta memoria. Pertanto, acquistare un piccolo stick di RAM ora è quasi impossibile. Ricerca Google di recente Rilascio TurboQuantUn algoritmo di compressione che riduce l’ingombro della memoria dei modelli linguistici di grandi dimensioni (LLM) aumentando la velocità e mantenendo la precisione.
TurboQuant mira a ridurre la dimensione della cache dei valori-chiave, che Google paragona a un “cheat sheet digitale” che memorizza informazioni importanti in modo che non debbano essere ricalcolate. Questo cheat sheet è necessario perché, come diciamo sempre, il LLM non sa veramente nulla; Possono sviluppare un’idea migliore della conoscenza delle cose attraverso l’uso di vettori, che mappano il significato semantico del testo tokenizzato. Quando due vettori sono uguali, significa che hanno una somiglianza concettuale.
I vettori ad alta dimensione, che possono contenere centinaia o migliaia di incorporamenti, possono descrivere informazioni complesse come i pixel in un’immagine o un set di dati di grandi dimensioni. Inoltre, occupano molta memoria e gonfiano le dimensioni della cache dei valori-chiave, ostacolando le prestazioni. Per rendere i modelli più piccoli e più efficienti, gli sviluppatori utilizzano tecniche di quantizzazione per eseguirli con una precisione inferiore. Lo svantaggio è che i risultati peggiorano: la qualità delle stime dei token diminuisce Con TurboQuant, i risultati preliminari di Google mostrano in alcuni test un aumento delle prestazioni di 8 volte e una riduzione dell’utilizzo della memoria di 6 volte tranne Perdita di qualità.
angoli e difetti
L’applicazione di TurboQuant a un modello AI è un processo in due fasi. Per ottenere una compressione di alta qualità, Google ha sviluppato un sistema chiamato Polar Quant. In genere, i vettori nei modelli AI vengono codificati utilizzando le coordinate XYZ standard, ma Polar Quant converte i vettori in coordinate polari nel sistema cartesiano. In questa griglia circolare, i vettori sono ridotti a due informazioni: un raggio (forza dei dati fondamentali) e una direzione (significato dei dati).















