In questo momento, ogni laboratorio di intelligenza artificiale di frontiera raziona due cose: elettricità e informatica. La maggior parte acquista i computer per l’addestramento dei modelli dallo stesso fornitore; Gli elevati margini lordi rendono Nvidia una delle aziende di maggior valore al mondo. Google non lo fa.
Martedì sera, in un incontro speciale presso la F1 Plaza di Las Vegas, Google ha presentato in anteprima le sue unità di elaborazione Tensor di ottava generazione. La presentazione: entro la fine dell’anno verranno rilasciati due progetti di silicio personalizzati, ciascuno progettato specificamente per una metà diversa del moderno carico di lavoro dell’intelligenza artificiale. Mentre TPU 8t si rivolge all’addestramento per i modelli edge, TPU 8i si rivolge al mondo a bassa latenza e affamato di memoria dell’inferenza dell’agenzia e del campionamento in tempo reale.
Amin Vahdat (a sinistra, nella foto sopra), vicepresidente senior e capo tecnologo di Google per l’intelligenza artificiale e le infrastrutture, ha utilizzato il suo tempo sul palco per sottolineare un punto che per gli acquirenti aziendali è più importante di qualsiasi specifica: Google sta progettando ogni livello del suo stack AI end-to-end e che l’integrazione verticale sta iniziando a manifestarsi nell’economia del costo per token che secondo Google i suoi concorrenti non possono eguagliare.
"Un chip all’anno non era sufficiente": scommessa per il 2024 sulla roadmap dei due chip di Google
La storia più interessante dietro v8t e v8i è quando è stata presa la decisione di dividere la tabella di marcia. Secondo Vahdat, questa chiamata è arrivata nel 2024; un anno prima che l’industria si rivolgesse generalmente a modelli di ragionamento, agenti e apprendimento per rinforzo come carico di lavoro dominante.
All’epoca era una lettura controcorrente. "Due anni fa ci siamo resi conto che un chip all’anno non sarebbe bastato." Vahdat lo ha detto ai fornelli. "Questa è la nostra prima occasione di utilizzare effettivamente due chip speciali super potenti."
Per gli acquirenti aziendali questo significa qualcosa di concreto. Clienti che eseguono corsi di perfezionamento o formazione su larga scala su Google Cloud e clienti che servono agenti di produzione IA del vertice assumono gli stessi acceleratori e mangiano l’inefficienza. V8 è la prima generazione in cui il silicio tratta questi problemi come problemi separati con due chipset.
TPU 8t: un tessuto educativo scalabile fino a un milione di chip
Sulla carta, TPU 8t rappresenta un aggressivo passo avanti generazionale. Secondo Google, l’8t offre EFlops FP4 2,8x per pod (121 contro 42,5) rispetto al TPU Ironwood di settima generazione rilasciato nel 2025, il ridimensionamento bidirezionale raddoppia la larghezza di banda a 19,2 Tb/s per chip e quadruplica il ridimensionamento della rete a 400 Gb/s per chip. La dimensione del pod cresce modestamente da 9.216 chip a 9.600 chip, tenuti insieme dalla topologia 3D Torus di Google.
Il numero più importante per i leader IT che considerano dove eseguire la formazione su scala edge: cluster da 8 tonnellate (Superpod) possono scalare oltre 1 milione di chip TPU in un singolo lavoro di formazione attraverso una nuova interconnessione che Google chiama rete Virgo.
L’8t offre anche TPU Direct Storage, che sposta i dati dal livello di archiviazione gestito di Google direttamente a HBM senza hop mediati dalla CPU. Per cicli di formazione lunghi in cui il tempo impiegato è un fattore di costo, restringendo questo percorso dati si riduce il numero di ore pod necessarie per completare ciascun periodo.
TPU 8i e Boardfly: ristrutturazione della rete per gli agenti
Se l’8t rappresenta un passo evolutivo, il TPU 8i è un chip più interessante dal punto di vista architettonico. È qui che la storia diventa più interessante per gli acquirenti IT.
Nelle parole di Vahdat, gli aumenti delle specifiche anno dopo anno sono “sorprendenti”. Secondo Google, l’8i offre 9,8 volte più EFlops FP8 per pod (11,6 contro 1,2), una capacità HBM 6,8 volte maggiore per pod (49,2 contro 331,8 TB) e una dimensione del pod che aumenta di 4,5 volte da 256 chip a 1.152 chip.
Ciò che ha portato a questi numeri è stato un ripensamento della rete stessa. Vahdat ha spiegato direttamente questa intuizione: il metodo predefinito di Google di collegare insieme i chip favorisce la larghezza di banda attraverso la latenza; Utile per spostare grandi quantità di dati, non è progettato per il tempo di risposta minimo richiesto per la restituzione. Questo profilo funziona per l’istruzione. Per i rappresentanti non è così. Il team TPU ha lavorato in collaborazione con Google DeepMind per creare quella che Google chiama topologia Boardfly appositamente per ridurre il diametro della rete; questo ha ridotto il numero di salti tra due chip qualsiasi in un vano. Abbinato al Collective Acceleration Engine e a ciò che Google descrive come un’enorme SRAM su chip, l’8i offre un miglioramento dichiarato di 5 volte nella latenza per il campionamento LLM in tempo reale e l’apprendimento per rinforzo.
Fossato di integrazione verticale: perché Google non paga? "Tassa Nvidia"
Il sottotesto della presentazione di Vahdat era un diagramma a sei livelli di ciò che Google chiama il suo stack AI: energia alla base, poi terreno e recinzioni del data center, hardware dell’infrastruttura AI, software dell’infrastruttura AI, modelli (Gemini 3) e servizi in alto. Vahdat ha osservato che progettare ogni livello separatamente ti obbliga a utilizzare il minimo comune denominatore di ogni livello. Google li progetta insieme.
È qui che la situazione competitiva diventa chiara per gli acquirenti e gli analisti IT. OpenAI, Anthropic, xAI e Meta fanno tutti molto affidamento sul silicio Nvidia per addestrare i loro modelli principali. Ogni GPU H200 e Blackwell acquistata comporta il margine lordo del data center di Nvidia (non ufficiale) "Tassa Nvidia" Gli analisti del settore hanno segnalato questo come uno svantaggio strutturale in termini di costi per chi affitta invece di progettare per due anni. Google paga i costi di fabbrica, imballaggio e progettazione dei suoi TPU. Non paga questo margine.
Cosa significa la versione 8 per la corsa all’informatica: una nuova checklist di valutazione per i leader IT
Per i team di approvvigionamento e infrastruttura, TPUv8 riformula la valutazione del cloud 2026-2027 in modi concreti.
I team che addestrano modelli personalizzati di grandi dimensioni dovrebbero considerare le finestre di disponibilità di 8 t, l’accesso alla rete Virgo e buoni SLA di throughput, non solo gli EFlop principali. I team che servono gli agenti o giudicano i carichi di lavoro dovrebbero considerare la disponibilità di 8i su Vertex AI, benchmark di latenza indipendenti man mano che si verificano e se le dimensioni HBM per pod si adattano alle finestre di contesto. I team che utilizzano Gemini tramite Gemini Enterprise dovrebbero ereditare l’8i lift e aspettarsi che il massimale che possono implementare nella produzione aumenti in modo significativo entro il 2026.
Gli avvertimenti sono reali. Disponibilità generale ancora "più tardi nel 2026." Il V8 oggi è un segnale sulla tabella di marcia, non una decisione di acquisto. I benchmark di Google sono auto-segnalati; Senza dubbio nei prossimi due trimestri arriveranno dati indipendenti provenienti dai primi clienti cloud e da valutatori di terze parti. La portabilità tra JAX/XLA e l’ecosistema CUDA/PyTorch rimane un costo di attrito da considerare quando si negozia qualsiasi impegno pluriennale.
Guardando più avanti, Vahdat ha fatto due previsioni notevoli. In primo luogo, le CPU generiche avranno una rinascita non come acceleratori nei sistemi di intelligenza artificiale, ma come orchestrazione del calcolo per sandbox di agenti, macchine virtuali ed esecuzione di strumenti. In secondo luogo, anche la specializzazione sta andando forte, chiaramente inquadrata come una previsione del settore piuttosto che come un’anteprima della roadmap di Google. Dato che le CPU generiche ristagnano a un ritmo di pochi punti percentuali all’anno, carichi di lavoro significativi richiederanno silicio appositamente costruito. "Due chip possono essere di più," Vahdat ha detto quanto segue, senza specificare se "Di più" significa future varianti TPU o altre classi speciali di acceleratori.
La corsa all’edge computing era una questione di chi poteva acquistare il maggior numero di H100. Ora è una questione di chi controlla lo stack. Attualmente il breve elenco di aziende che stanno effettivamente facendo questo è due: Google e Nvidia.















