Presentato da Solidigm


Il raffreddamento a liquido sta riscrivendo le regole dell’infrastruttura AI, ma la maggior parte delle implementazioni non ha ancora superato il limite. Con il passaggio di GPU e CPU al raffreddamento a liquido, lo storage è diventato dipendente dal flusso d’aria, creando un’architettura ibrida operativamente inefficiente.

Quella che sembra essere una strategia di transizione pragmatica è in pratica una responsabilità strutturale.

“L’approccio di raffreddamento ibrido è inefficiente dal punto di vista operativo”, spiega Hardeep Singh, responsabile del team hardware termico-meccanico presso Solidigm. “Stai pagando e mantenendo due infrastrutture di raffreddamento costose e completamente separate, e potresti essere esposto al peggio di entrambi i mondi.”

Il raffreddamento a liquido richiede pompe, collettori di fluidi e unità di distribuzione del refrigerante (CDU), mentre i componenti raffreddati ad aria richiedono unità CRAC, corridoi freddi e torri di raffreddamento evaporative. Le organizzazioni che passano a una soluzione ibrida semplicemente aggiungendo un po’ di raffreddamento a liquido stanno assorbendo il sovrapprezzo senza ottenere l’intero vantaggio in termini di TCO.

La fisica termica peggiora le cose. Le ingombranti piastre fredde raffreddate a liquido, i tubi spessi e i collettori ostruiscono fisicamente il flusso d’aria all’interno dello chassis del server GPU. Ciò concentra lo stress termico sui restanti componenti raffreddati ad aria, tra cui unità di archiviazione, memoria e schede di rete, poiché le ventole del server non sono in grado di fornire un flusso d’aria adeguato attorno all’impianto idraulico. I componenti che dipendono maggiormente dai ventilatori sono esposti al peggiore ambiente termico possibile.

Il consumo di acqua è un problema altrettanto serio che viene quasi ignorato. I componenti tradizionali raffreddati ad aria si affidano alle ventole del server per spostare il calore nell’aria ambiente; questo viene poi assorbito da un ciclo dell’acqua e pompato in torri di raffreddamento evaporative. Questi sistemi possono consumare milioni di litri d’acqua nel tempo. Poiché le densità di potenza dei rack continuano ad aumentare per supportare i moderni carichi di lavoro dell’intelligenza artificiale, la penalizzazione dell’evaporazione dell’acqua diventa, secondo le parole di Singh, “insostenibile dal punto di vista ambientale ed economico”.

Man mano che l’infrastruttura AI si evolve verso sistemi GPU raffreddati a liquido e senza ventole, i veri vincoli su scala si stanno spostando dalle prestazioni di elaborazione alla progettazione termica a livello di sistema. Le moderne piattaforme di intelligenza artificiale non sono più costruite server per server; Sono progettati come sistemi a livello rack e bay strettamente integrati in cui la distribuzione dell’alimentazione, la distribuzione del raffreddamento e il posizionamento dei componenti sono inseparabili.

In questo ambiente, le architetture di storage progettate per data center dipendenti dal flusso d’aria diventano un fattore limitante. Man mano che le piattaforme GPU si spostano in aree condivise di raffreddamento a liquido ancorate interamente a CDU a livello di rack, ogni componente del sistema deve funzionare in modo nativo con lo stesso design termico e meccanico. Lo storage non può più fare affidamento su percorsi di raffreddamento isolati o su ipotesi termiche specifiche senza creare inefficienza, complessità o variazioni di densità a livello di sistema.

Perché lo storage non è più un sottosistema passivo?

Per i leader delle infrastrutture, questo segna una transizione fondamentale. Lo storage non è più un sottosistema passivo legato all’elaborazione, ma partecipa invece attivamente al raffreddamento, alla funzionalità e all’utilizzo della GPU a livello di sistema. La capacità di scalare l’intelligenza artificiale ora dipende dalla possibilità che lo storage possa essere integrato in modo pulito nei sistemi GPU raffreddati a liquido senza abbattere le architetture di raffreddamento o limitare la progettazione a livello di rack.

Scott Shadley, direttore della narrativa sulla leadership ed evangelista di Solidigm, afferma che la corsa per scalare l’intelligenza artificiale non riguarda più solo chi ha il maggior numero di GPU, ma piuttosto chi può mantenerle fresche.

“Trovare un modo per abilitare lo storage raffreddato a liquido rendendolo allo stesso tempo riparabile dall’utente è stata una delle sfide più grandi nella progettazione di soluzioni di sistemi fanless”, afferma Shadley. “Con l’evoluzione dei carichi di lavoro dell’intelligenza artificiale, la pressione sullo storage aumenterà”.

Tecniche come l’offload della cache KV, che sposta i dati tra la memoria della GPU e lo storage ad alta velocità durante l’inferenza, rendono la latenza dello storage e le prestazioni termiche direttamente rilevanti per l’efficienza del servizio del modello. In queste architetture, un sottosistema di storage limitato a causa dello scarso flusso d’aria convenzionale sotto carico termico rallenta sia la lettura che il modello stesso.

Passaggio al raffreddamento a liquido integrato

Il passaggio dai tradizionali server GPU raffreddati ad aria ai rack integrati raffreddati a liquido migliora l’efficienza di utilizzo dell’energia (PUE) e riduce i costi operativi del data center. Sostituisce inoltre la rumorosa unità di trattamento dell’aria della sala computer (CRAH) e offre una CDU liquida moderna ed efficiente con la potenziale possibilità di eliminare i dispositivi di raffreddamento se i rack possono essere raffreddati a una temperatura del liquido di 45° Celsius.

Lo stoccaggio dovrebbe inoltre garantire la funzionalità senza perdite di liquido quando raffreddato tramite liquido in assenza di ventole. Ciò crea anche un nuovo requisito che molti team infrastrutturali stanno appena iniziando a risolvere: ogni componente del rack deve funzionare localmente all’interno della stessa architettura di raffreddamento.

Storage come partecipante attivo nella progettazione del sistema

La progettazione dello storage non è più un problema tecnico isolato. È una variabile diretta nell’utilizzo della GPU, nell’affidabilità del sistema e nell’efficienza operativa. La soluzione è riprogettare completamente lo storage per ambienti raffreddati a liquido e senza ventole. Questo è più difficile di quanto sembri. Il design SSD tradizionale presuppone il flusso d’aria per la gestione termica e posiziona i componenti su entrambi i lati di un PCB isolato termicamente. Nessuna delle due ipotesi è valida in un’architettura connessa a CDU.

“Gli SSD devono essere progettati con una soluzione termica migliore della categoria per condurre in modo efficiente il calore dai componenti interni e trasferirlo al liquido”, afferma Singh. “Il progetto deve includere un percorso a bassa resistenza per il trasferimento del calore a una singola piastra fredda fissata su un lato.”

Allo stesso tempo, le unità devono essere riparabili senza perdite di fluido durante l’installazione e la rimozione e senza interrompere l’interfaccia termica tra l’unità e la piastra fredda.

Solidigm funziona NVIDIA Superare le sfide del raffreddamento a liquido degli SSD come hot-swap e raffreddamento su un solo lato, riducendo l’impronta termica dello storage all’interno del circuito liquido condiviso e garantendo che le GPU ricevano la loro quota proporzionale di refrigerante.

“Se lo storage non è progettato in modo efficiente per un ambiente raffreddato a liquido, ridurrà le prestazioni o richiederà più volume di liquido”, afferma. “Ciò porta direttamente e indirettamente al sottoutilizzo della capacità della GPU.”

Il percorso verso l’armonizzazione e l’interoperabilità degli standard

Solidigm non sta lavorando solo su questo problema. Il settore in generale si sta coalizzando attorno a standard per garantire che i sistemi di intelligenza artificiale raffreddati a liquido siano interoperabili piuttosto che un mosaico di soluzioni proprietarie. SNIA e Open Computing Project (OCP) sono le principali istituzioni che conducono questo lavoro.

Solidigm è stato il pioniere dello standard industriale per il raffreddamento a liquido nell’SFF-TA-1006 per il fattore di forma E1.S e partecipa attivamente ai flussi di lavoro OCP che coprono la progettazione del rack, la gestione termica e la sostenibilità. Le soluzioni di raffreddamento personalizzate e su misura per lo storage stanno lasciando il posto a progetti conformi agli standard e pronti per la produzione che si integrano perfettamente nelle piattaforme GPU raffreddate a liquido.

“Ci sono molte organizzazioni che partecipano a questo studio”, afferma Shadley, che è anche membro del consiglio di amministrazione della SNIA. “Hanno iniziato con soluzioni a livello di componente, fortemente supportate da SNIA e SFF TA TWG. Il livello successivo è il lavoro a livello di soluzione, che ora viene svolto principalmente da OCP.”

La roadmap di Solidigm indica la strada

Le regole di progettazione per le architetture a livello di sistema sono cambiate a causa dell’emergere di tecnologie di raffreddamento a liquido e ad immersione, che consentono regole di progettazione più uniche e consentono di rimuovere alcune barriere. La capacità dei sistemi di eseguire piattaforme solo SSD NVMe consente anche di rimuovere la limitazione del box basato su piatto che esiste nelle soluzioni HDD, afferma Shadley.

“I clienti di Solidigm hanno un ruolo attivo e di primo piano nelle decisioni sulla roadmap per i nostri prodotti grazie al loro profondo allineamento tecnico con l’ecosistema”, afferma. “Non ci limitiamo a realizzare e vendere prodotti: integriamo, co-progettiamo, co-sviluppiamo e innoviamo con i nostri partner, i nostri clienti e i loro clienti.”

Singh aggiunge: “Il punto di forza di Solidigm è l’innovazione e l’ingegneria a livello di sistema ispirata al cliente. Ciò continuerà a guidare in modo aggressivo l’adozione del raffreddamento a liquido per lo storage”.


Gli articoli sponsorizzati sono contenuti prodotti da un’azienda che ha pagato per il post o ha un rapporto commerciale con VentureBeat e sono sempre chiaramente contrassegnati. Contatta per maggiori informazioni sales@venturebeat.com.

Collegamento alla fonte