Per più di un decennio, le GPU di Nvidia sono state il fondamento di quasi tutti i principali progressi nel campo dell’intelligenza artificiale moderna. Ora questa posizione viene messa in discussione.

I modelli di frontiera come Gemini 3 di Google e Claude 4.5 Opus di Anthropic non sono addestrati con l’hardware Nvidia, ma con le ultime unità di elaborazione Tensor di Google, il TPUv7 basato su Ironwood. Ciò segnala che una valida alternativa allo stack AI incentrato sulla GPU è già qui; Questa alternativa ha implicazioni reali per l’economia e l’architettura dell’istruzione su scala di frontiera.

Quello di Nvidia CUDA La piattaforma che fornisce l’accesso all’architettura massivamente parallela della GPU (Compute Unified Device Architecture) e gli strumenti che la circondano hanno creato quello che molti chiamano il “Computing Computer”. "Fosso CUDA"; Una volta che un team crea pipeline su CUDA, il passaggio a un’altra piattaforma è estremamente costoso a causa delle dipendenze dallo stack software di Nvidia. Ciò, combinato con il vantaggio di Nvidia di fare la prima mossa, ha aiutato l’azienda a diventare un successo. sorprendente 75% margine di profitto lordo.

A differenza delle GPU, i TPU sono stati progettati fin dal primo giorno come silicio appositamente progettato per l’apprendimento automatico. Con ogni generazione, Google è andata avanti nell’accelerazione dell’intelligenza artificiale su larga scala, ma ora che l’hardware dietro due dei modelli di intelligenza artificiale più capaci mai addestrati, TPUv7 segnala una strategia più ampia per sfidare il dominio di Nvidia.

Sia le GPU che le TPU accelerano l’apprendimento automatico, ma riflettono filosofie di progettazione diverse: le GPU sono processori paralleli per uso generale, mentre le TPU sono sistemi appositamente realizzati ottimizzati quasi esclusivamente per la moltiplicazione di matrici su larga scala. Con TPUv7, Google ha portato questa esperienza ancora oltre integrando strettamente le interconnessioni ad alta velocità direttamente nel chip; Ha consentito ai pod TPU di scalare come un singolo supercomputer, riducendo i costi e le penalità di latenza che spesso derivano dai cluster basati su GPU.

TPU "Progettato come un “sistema” completo piuttosto che un semplice chip," Val Bercovici, Direttore Intelligenza Artificiale WEKAha detto a VentureBeat.

Il perno dell’attività di Google va dall’interno dell’azienda al settore più ampio

In passato, Google aveva solo un accesso limitato alle TPU noleggio cloud su Google Cloud Platform. Negli ultimi mesi Google ha iniziato a offrire l’hardware direttamente a clienti esterni, separando di fatto il chip dal suo servizio cloud. I clienti possono scegliere se considerare l’informatica come una spesa operativa noleggiandola attraverso il cloud o effettuando un esborso di capitale (acquistando l’hardware a titolo definitivo), eliminando un importante punto di attrito per i grandi laboratori di intelligenza artificiale che preferiscono possedere il proprio hardware. "affitto delle nuvole" premium per l’hardware di base.

Il fulcro del cambiamento di strategia di Google è un accordo storico con Anthropic, in base al quale il creatore di Claude 4.5 Opus avrà accesso a un milione di chip TPUv7 (più di un gigawatt di capacità di calcolo). Circa 400.000 chip vengono venduti direttamente ad Anthropic tramite Broadcom, partner di lunga data di Google per la progettazione fisica. I restanti 600.000 chip vengono noleggiati tramite i tradizionali contratti Google Cloud. L’impegno di Anthropic aggiunge miliardi di dollari ai profitti di Google e blocca uno dei principali concorrenti di OpenAI nell’ecosistema di Google.

erodere "Fosso CUDA"

Per anni, le GPU di Nvidia sono state il chiaro leader di mercato nelle infrastrutture di intelligenza artificiale. Oltre al suo potente hardware, l’ecosistema CUDA di Nvidia presenta un’ampia libreria di core e framework ottimizzati. In combinazione con un’ampia familiarità da parte degli sviluppatori e un’enorme base installata, le aziende procedono lentamente "Fosso CUDA," È una barriera strutturale che rende poco costoso abbandonare un’infrastruttura basata su GPU.

Uno dei principali inibitori che impediscono una più ampia adozione del TPU è stato l’attrito dell’ecosistema. In passato, le TPU funzionavano meglio con JAX, la libreria di calcolo numerico di Google progettata per la ricerca AI/ML. Ma lo sviluppo tradizionale dell’intelligenza artificiale si basa principalmente su PyTorch, un framework di apprendimento automatico open source che può essere ottimizzato per CUDA.

Google sta ora affrontando direttamente questa lacuna. TPUv7 supporta l’integrazione nativa di PyTorch, tra cui: esecuzione volontariasupporto completo per API distribuite, torch.compile e supporto kernel TPU personalizzato nella toolchain di PyTorch. Il punto di PyTorch è che funziona facilmente sui TPU come sulle GPU Nvidia.

Anche Google contribuisce notevolmente vLLM E SGLangDue popolari framework di inferenza open source. Ottimizzando questi strumenti ampiamente utilizzati per TPU, Google consente agli sviluppatori di sostituire l’hardware senza dover riscrivere l’intera base di codice.

Vantaggi e svantaggi dei TPU rispetto alle GPU

Per le organizzazioni che confrontano TPU e GPU per carichi di lavoro di machine learning su larga scala, i vantaggi si concentrano principalmente su costi, prestazioni e scalabilità. SemiAnalysis ha recentemente pubblicato a immersione profonda soppesando i vantaggi e gli svantaggi delle due tecnologie, misurando l’efficienza in termini di costi e le prestazioni tecniche.

Grazie alla sua architettura proprietaria e alla maggiore efficienza energetica, TPUv7 offre un throughput per dollaro significativamente migliore per la formazione su larga scala e l’inferenza ad alto throughput. Ciò consente alle organizzazioni di ridurre i costi operativi legati alle risorse di alimentazione, raffreddamento e data center. SemiAnalytics stima che per i sistemi interni di Google, il costo totale di proprietà (TCO) di un server basato su Ironwood è inferiore di circa il 44% rispetto al TCO di un server Nvidia GB200 Blackwell equivalente. I clienti esterni come Anthropic vedono una riduzione dei costi di circa il 30% rispetto a Nvidia, anche tenendo conto dei margini di profitto sia di Google che di Broadcom. "Le TPU hanno senso per progetti di intelligenza artificiale su larga scala quando il costo è essenziale. Con le TPU, gli hyperscaler e i laboratori di intelligenza artificiale possono ridurre il costo totale di proprietà del 30-50%, il che può tradursi in un risparmio di miliardi di dollari." Bercovici ha detto.

Questa leva economica sta già rimodellando il mercato. La mera esistenza di una valida alternativa a OpenAI Negozia per uno sconto del 30% circa sul proprio hardware Nvidia. OpenAI è uno dei maggiori acquirenti di GPU Nvidia, ma all’inizio di quest’anno l’azienda Aggiunti TPU Google tramite Google Cloud Per supportare le crescenti esigenze informatiche. Secondo quanto riferito, anche Meta è in trattative avanzate. Ottieni TPU Google per i data center.

In questa fase Ironwood può sembrare la soluzione ideale per l’architettura aziendale, ma ci sono alcuni compromessi. Sebbene le TPU eccellano in determinati carichi di lavoro di deep learning, sono molto meno flessibili delle GPU, che possono eseguire un’ampia gamma di algoritmi, comprese attività non basate sull’intelligenza artificiale. Se domani verrà inventata una nuova tecnica di intelligenza artificiale, la GPU la eseguirà immediatamente. Ciò rende le GPU più adatte per le organizzazioni che eseguono un’ampia gamma di carichi di lavoro computazionali oltre il deep learning standard.

La migrazione da un ambiente incentrato sulla GPU può essere costosa e richiedere molto tempo, soprattutto per i team con pipeline esistenti basate su CUDA, core GPU dedicati o che sfruttano framework non ancora ottimizzati per le TPU.

Bercovici consiglia alle aziende di: "Scegli le GPU quando è necessario muoversi velocemente e il time-to-market è importante. Le GPU sfruttano l’infrastruttura standard e il più grande ecosistema di sviluppatori, gestiscono carichi di lavoro dinamici e complessi per i quali le TPU non sono ottimizzate e vengono implementate nei data center locali esistenti basati su standard senza richiedere particolari riconfigurazioni di alimentazione e rete."

Inoltre, l’ubiquità delle GPU significa che sono disponibili più talenti ingegneristici. Le TPU richiedono un set di abilità raro. "Per sfruttare la potenza delle TPU è necessario che un’organizzazione abbia una profondità ingegneristica; Ciò significa essere in grado di reclutare e trattenere rari talenti ingegneristici in grado di scrivere kernel personalizzati e ottimizzare i compilatori." Bercovici ha detto.

In pratica, i vantaggi di Ironwood sono realizzabili soprattutto per le aziende con carichi di lavoro di grandi dimensioni e ad alto carico di tensori. Le organizzazioni che necessitano di maggiore flessibilità hardware, strategie di cloud ibrido o versatilità in stile HPC potrebbero trovare le GPU più adatte. In molti casi, un approccio ibrido che combina i due può offrire il miglior equilibrio tra competenza e flessibilità.

Il futuro dell’architettura dell’intelligenza artificiale

La competizione per il dominio nell’hardware dell’intelligenza artificiale si sta infiammando, ma è troppo presto per prevedere un vincitore o se ci sarà un vincitore. Nvidia e Google innovano così rapidamente e le aziende come Amazon Se ci uniamo alla mischia, i sistemi di intelligenza artificiale più performanti del futuro potrebbero essere ibridi, integrando sia TPU che GPU.

"”Google Cloud sta registrando una domanda crescente sia per i nostri TPU personalizzati che per le GPU Nvidia”, ha detto a VentureBeat un portavoce di Google. “Di conseguenza, stiamo espandendo in modo significativo la nostra offerta di GPU Nvidia per soddisfare la significativa domanda dei clienti. La realtà è che la maggior parte dei nostri clienti Google Cloud utilizza sia GPU che TPU. Con la nostra ampia selezione delle ultime GPU Nvidia e sette generazioni di TPU personalizzate, offriamo ai nostri clienti la flessibilità di ottimizzare per le loro esigenze specifiche."

Collegamento alla fonte