Quindi i chip più recenti consentono un addestramento più rapido, ma Google afferma anche che otterrai calcoli più utili per ogni volt pompato in un TPU 8t. L’azienda dichiara un tasso di “buono rendimento” del 97%, il che significa meno attese e sforzi inutili. Grazie all’accesso irregolare alla memoria, alla gestione automatica degli errori hardware e a una migliore gestione della telemetria in tempo reale su tutti i chip collegati, il TPU 8t dedica più tempo all’avanzamento attivo dell’addestramento del modello.
Una volta terminato l’addestramento, i modelli IA entrano in modalità di inferenza per generare token, il processo che avviene dietro le quinte quando dici a un modello di fare qualcosa. Non richiede molta potenza, quindi è inefficiente utilizzare lo stesso hardware per entrambe le parti del ciclo di vita dell’IA. Ecco perché Assunzione è l’ambito del TPU 8i, progettato per essere più efficiente quando si eseguono più agenti speciali in un tempo relativamente minore. I chip TPU 8i funzionano anche in pod più grandi da 1.152 chip contro i soli 256 dei cluster di inferenza Ironwood di ultima generazione. Ciò equivale a 11,6 EFlops per pod, molto meno del pod TPU 8t.
Il TPU 8i ha meno potenza pura del TPU 8t.
Credito: Google
Google ha triplicato la quantità di SRAM su chip per ciascun TPU 8i portandola a 384 MB. Ciò consente ai nuovi chip dell’azienda di avere una cache dei valori chiave più ampia sul chip, accelerando i modelli con finestre di contesto più lunghe. Gli acceleratori AI di ottava generazione sono anche i primi di Google a fare affidamento esclusivamente sull’host CPU Axion ARM personalizzato di Google, con una CPU per ogni due TPU. In Ironwood, ogni CPU x86 serve quattro chip TPU. Google afferma che questo approccio “full-stack” basato su ARM consente un’efficienza molto maggiore.
Un gioco di abilità
È logico che l’efficienza sia una parte fondamentale della nuova configurazione TPU di Google. I modelli di intelligenza artificiale di frontiera sono costosi da addestrare e gestire e il ritorno sull’investimento non è chiaro. Le aziende stanno ancora spendendo soldi per l’intelligenza artificiale generativa nella speranza che l’efficienza prima o poi possa cambiare. Forse le nuove TPU di Google aiuteranno ad arrivarci e forse no, ma l’azienda ha fatto progressi significativi















