Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora


Gli ultimi decenni hanno visto progressi quasi senza precedenti nelle prestazioni di calcolo e nell’efficienza fornite dalla legge Moore e supportate dal ridimensionamento dell’hardware delle materie prime e software liberamente accoppiato. Questa architettura ha offerto a livello globale i servizi online e ha messo quasi tutte le conoscenze umane sulle nostre dita.

Tuttavia, la prossima rivoluzione delle informazioni richiederà molto di più. Adempiere alla promessa dell’intelligenza artificiale richiede un passaggio di capacità che superano l’avanzamento del periodo di Internet. Per raggiungere questo obiettivo, come industria, dobbiamo rivedere alcune delle basi che hanno trascinato la trasformazione precedente e fare un’innovazione collettiva per ripensare l’intera pila tecnologica. Esploriamo le forze che guidano questo tumulto e presentiamo come dovrebbe essere questa architettura.

Dalle attrezzature per le materie prime al calcolo speciale

Per decenni, la tendenza dominante nel processo di informazione è stata quasi la stessa, la democratizzazione del calcolo attraverso architetture in scala costruita su server di materie prime. Questa uniformità ha permesso al carico di lavoro flessibile di posizionare e utilizzare risorse efficienti. Le esigenze della Gen AI, che dipende in gran parte da processi matematici prevedibili nei cluster di dati di grandi dimensioni, hanno invertito questa tendenza.

Attualmente stiamo assistendo a un cambiamento decisivo per attrezzature speciali, tra cui ASIC, GPU e Tensor Processing Unit (TPU), che fornisce ordini di miglioramento delle dimensioni per dollari e per WATT rispetto alle CPU per uso generale. Questa proliferazione delle unità di calcolo specifiche del campo ottimizzate per compiti ristretti sarà fondamentale per garantire rapidi progressi in corso nell’IA.


La serie di effetto AI torna a San Francisco – 5 agosto

La prossima fase dell’intelligenza artificiale è qui – sei pronto? Per uno sguardo speciale a come gli agenti autonomi rimodellano i flussi di lavoro aziendali, Block, GSK e SAP si sono uniti ai leader dalla fine all’estremità senza prendere decisioni.

Ora aggiusta il tuo posto: l’area è limitata: https://bit.ly/3guupplf


Oltre Ethernet: Rise of Special Connections

Questi sistemi specializzati richiederanno spesso una comunicazione “intera” con la larghezza di banda dei progressi e i ritardi di nanosaniye si avvicinano alle velocità di memoria locale al secondo. Le reti di oggi, che sono in gran parte basate su switch Ethernet di materie prime e protocolli TCP/IP, sono attrezzate per soddisfare queste richieste eccessive.

Di conseguenza, vediamo l’ascesa di speciali connessioni intermedie come NVLink per TPU e GPU per TPU e GPU per ridimensionare i carichi di lavoro Gen AI lungo gli ampi cluster di acceleratori speciali. Le reti adatte a tale scopo danno la priorità ai trasferimenti di memoria direttamente dalla memoria e utilizzano apparecchiature speciali per accelerare la condivisione delle informazioni tra i processori e saltare efficacemente l’onere delle reti tradizionali e strati.

Verso una rete rigorosa integrata e basata sul calcolo, questo movimento sarà necessario per superare i colli di bottiglia della comunicazione e per ridimensionarla in modo efficiente dell’IA di nuova generazione.

Memoria

Per decenni, i guadagni delle prestazioni nel calcolo hanno lasciato alle spalle la crescita della larghezza di banda della memoria. Sebbene le tecniche come la cache e la SRAM impilata lo abbiano parzialmente riducono, la natura densa di dati di AI peggiora solo il problema.

Al fine di alimentare unità di calcolo più potenti, la necessità insaziabile ha portato alla memoria ad alta larghezza di banda (HBM) che ha impilato il dramma direttamente nel pacchetto del processore per aumentare la larghezza di banda e ridurre il ritardo. Tuttavia, anche l’HBM deve affrontare le limitazioni di base: il chip fisico limita il flusso di dati totale dell’ambiente e sposta grandi set di dati al tasso di progresso.

Queste limitazioni sottolineano la necessità critica di una maggiore connessione alla larghezza di banda e sottolinea l’urgenza delle scoperte nell’architettura di elaborazione e memoria. Senza queste innovazioni, le nostre forti risorse di calcolo rimarranno inattivi in attesa dei dati limitando significativamente l’efficienza e la scala.

Dalle aziende agricole dei server ai sistemi ad alta densità

I modelli di apprendimento automatico avanzato di oggi (ML) consumano spesso un enorme potere tra loro, in base ai calcoli regolati con cura su centinaia di migliaia di elementi di calcolo identici. Questa stretta connessione a livello di microsecondi e una sottile sincronizzazione del grano porta nuove richieste. A differenza dei sistemi che abbracciano l’eterogeneità, i calcoli ML richiedono elementi omogenei; La miscelazione di generazioni è più veloce unità è un collo di bottiglia. Anche i modi di comunicazione dovrebbero essere pianificati e altamente efficienti, poiché i ritardi in un singolo elemento possono fermare l’intero processo.

Queste eccessive richieste di coordinamento e potere aumentano la necessità di una densità di calcolo senza precedenti. Riduce al minimo la distanza fisica tra i processori per ridurre il ritardo e il consumo di energia e porta a una nuova classe di sistema di intelligenza artificiale ultra intensiva.

Per una densità eccessiva e un rigoroso calcolo coordinato, questa forza trainante che richiede il ripensamento radicale dell’ordine fisico e la gestione dinamica dell’energia per prevenire i colli di bottiglia delle prestazioni e massimizzare la produttività modificando il design più adatto per l’infrastruttura.

Un nuovo approccio alla tolleranza agli errori

La tradizionale tolleranza ai guasti si basa sull’eccesso tra sistemi collegati allentati per ottenere un tempo di lavoro elevato. Il calcolo ML richiede un approccio diverso.

Innanzitutto, la scala di calcolo puro lo rende molto costoso. In secondo luogo, la formazione del modello è un processo sincronizzato rigoroso in cui un singolo errore può riunirsi verso migliaia di processori. Infine, l’hardware ML avanzato di solito spinge al limite della tecnologia esistente e potenzialmente porta a tassi di malfunzionamento più elevati.

Invece, la strategia risultante, con monitoraggio in tempo reale, una rapida allocazione delle risorse di ricambio e un rapido riavvio, il risparmio di frequente stato di implicazione di configurazione. L’hardware di base e la progettazione di rete dovrebbero consentire un rilevamento di guasti rapidi per mantenere le prestazioni e una sostituzione del componente regolare.

Un approccio più sostenibile per il potere

Quando non vediamo l’ora oggi e in avanti, l’accesso alla potenza è un collo di bottiglia importante per il calcolo del ridimensionamento dell’IA. Mentre il tradizionale progettazione del sistema si concentra sulle massime prestazioni per chip, dobbiamo spostarci da un design end a end che viene consegnato per watt, concentrandoci sulle prestazioni su scala. Questo approccio è vitale perché tiene conto di tutti i componenti del sistema (calcolo, rete, memoria, distribuzione di potenza, raffreddamento e tolleranza ai guasti). I componenti isolanti limita seriamente l’efficienza del sistema generale.

Poiché spinge per maggiori prestazioni, i singoli chip richiedono più potenza, spesso superano la capacità di raffreddamento dei tradizionali data center raffreddati all’aria. Ciò richiede soluzioni di raffreddamento liquido più intense, ma alla fine più efficienti e uno spostamento verso la riprogettazione fondamentale dell’infrastruttura di raffreddamento del data center.

Oltre al raffreddamento, alimentatori tradizionali non necessari come i doppi servizi pubblici e i generatori diesel creano costi finanziari significativi e consegna a lenta capacità. Invece, dobbiamo combinare vari alimentatori e archiviazione su una scala multi -gigawatt gestita da controller di micro rete reali. Sfruttando la flessibilità del carico di lavoro dell’intelligenza artificiale e la distribuzione geografica, possiamo fornire più funzionalità senza costosi sistemi di backup che necessitano di solo poche ore all’anno.

Questo modello di potenza in via di sviluppo fornisce una risposta in tempo reale alla chiusura di usabilità di potenza dei calcoli durante l’uso per tecniche avanzate come il ridimensionamento della frequenza per i carichi di lavoro che possono tollerare prestazioni ridotte. Tutto ciò richiede la telemetria e il funzionamento reale ai livelli attuali che non sono disponibili.

Sicurezza e privacy: cotta al suo interno, disabitato

Un corso critico del periodo di Internet è che la sicurezza e la privacy non possono essere imbullonate efficacemente su un’architettura esistente. Le minacce da parte di cattivi attori diventeranno solo più sofisticate e richiedono che l’infrastruttura ML sia costruita nella trama dei dati degli utenti e della proprietà intellettuale registrata. Un’osservazione importante è che l’IA alla fine dell’IA. Ciò significa che dobbiamo essere sicuri che l’IA stia caricando le nostre difese allo stesso tempo.

Ciò include la crittografia dei dati finali a end, i registri di accesso confermati, il robusto monitoraggio dei dati, i calcoli sensibili e i limiti di sicurezza avanzati per proteggere i sistemi di gestione delle chiavi avanzati. Sarà necessario integrare queste misure da zero, proteggere gli utenti e proteggere la loro fiducia. Probabilmente il monitoraggio reale che ci sarà la telemetria e la logica Petabit/SEC sarà la chiave per identificare e neutralizzare i vettori di attacco dell’ago sul campo, compresi quelli provenienti da minacce interne.

Velocità come necessità strategica

Il ritmo degli aggiornamenti hardware è cambiato in modo significativo. A differenza dell’evoluzione dell’infrastruttura tradizionale rispetto allo scaffale incrementale, la distribuzione di super computer ML è sostanzialmente un approccio diverso. Questo perché ML Compute non funziona facilmente nella distribuzione eterogenea; Il codice di calcolo, gli algoritmi e il compilatore devono essere impostati specificamente per ogni nuova produzione hardware per beneficiare pienamente delle loro capacità. Il tasso di innovazione non è simile e di solito offre due o più fattori da nuove attrezzature ogni anno come prestazioni.

Pertanto, invece di aggiornamenti incrementali, le apparecchiature omogenee di solito devono essere rilasciate in modo ampio e simultaneo in tutti i data center. Con i lavori di ristrutturazione annuale delle attrezzature che forniscono miglioramenti delle prestazioni dei fattori interi, la capacità di sollevare rapidamente questi enormi motori AI.

L’obiettivo è comprimere la sequenza temporale dalla progettazione a 100.000 più distribuzione di chip e fornire miglioramenti di efficienza supportando le scoperte algoritmiche. Ciò richiede un modello simile alla produzione per queste infrastrutture, che richiede l’accelerazione e l’automazione radicali di ogni fase. Dall’architettura al monitoraggio e alla riparazione, ogni passaggio deve essere facilitato e automatizzato per utilizzare ciascuna produzione di hardware su scala senza precedenti.

Memoria di memoria: uno sforzo collettivo per l’infrastruttura di AI di nuova generazione

L’ascesa di Gen AI indica non solo un’evoluzione, ma anche una rivoluzione che richiede una rivitalizzazione radicale della nostra infrastruttura del processo di informazione. Le sfide nelle prossime difficoltà – attrezzature speciali, reti interconnesse e operazioni sostenibili – sono importanti, ma anche il potenziale trasformativo per essere abilitato dall’intelligenza artificiale.

Il calcolo risultante è facile vedere che la nostra infrastruttura non può essere riconosciuta nei prossimi anni, quindi non possiamo sviluppare i piani che abbiamo progettato prima. Invece, collettivamente, dalla ricerca all’industria, dobbiamo creare un nuovo piano per lo sforzo di esaminare i requisiti del calcolo dell’intelligenza artificiale dai primi principi e dalle infrastrutture globali di base. Ciò causerà principalmente nuove capacità dalla medicina all’istruzione, alle imprese, alla scala senza precedenti e alla produttività.

Amin Vahdat è VP e GM per l’apprendimento automatico, i sistemi e l’IA cloud. Google Cloud.


Collegamento alla fonte