Inserito da F5


Mentre le aziende investono miliardi di dollari in infrastrutture GPU per carichi di lavoro IA, molte stanno scoprendo che le costose risorse informatiche restano inattive molto più del previsto. L’hardware non è il colpevole. È il livello di distribuzione dei dati, spesso invisibile, tra storage ed elaborazione che priva le GPU delle informazioni di cui hanno bisogno.

"Sebbene le persone concentrino giustamente la loro attenzione sulle GPU, si tratta di investimenti molto significativi, ma raramente rappresentano un fattore limitante." afferma Mark Menger, architetto delle soluzioni presso F5. "Hanno la capacità di fare più lavoro. Stanno aspettando i dati."

Le prestazioni dell’intelligenza artificiale dipendono sempre più da un checkpoint indipendente e programmabile tra i framework AI e l’archiviazione degli oggetti; Questo è un punto di controllo che la maggior parte delle aziende non progetta intenzionalmente. Con la scalabilità dei carichi di lavoro AI, si verificano colli di bottiglia e instabilità quando i framework AI sono strettamente collegati a specifici endpoint di storage durante eventi di scalabilità, guasti e migrazioni cloud.

"I modelli tradizionali di accesso allo storage non sono stati progettati per carichi di lavoro AI altamente paralleli, veloci e multi-consumer." afferma Maggie Stringfellow, vicepresidente della gestione del prodotto – BIG-IP. "Uno spostamento efficiente dei dati tramite intelligenza artificiale richiede un livello di distribuzione dei dati separato progettato per astrarre, ottimizzare e proteggere i flussi di dati indipendentemente dai sistemi di storage perché l’economia della GPU rende l’inefficienza immediatamente visibile e costosa."

Perché i carichi di lavoro AI rappresentano una sfida per lo storage di oggetti?

Questi modelli bidirezionali includono l’acquisizione continua dei dati, l’output della simulazione e l’inserimento massiccio di checkpoint del modello. In combinazione con istruzioni di lettura intensiva e carichi di lavoro di inferenzaSottolineano l’infrastruttura strettamente accoppiata da cui dipendono i sistemi di storage.

Sebbene i fornitori di storage abbiano svolto un lavoro significativo per scalare il flusso di dati in entrata e in uscita dai loro sistemi, concentrarsi esclusivamente sul volume dei dati crea effetti a catena sui livelli di commutazione, gestione del traffico e sicurezza associati allo storage.

stressare Sistemi compatibili S3 Le soluzioni dei carichi di lavoro AI sono multidimensionali e significativamente diverse dai modelli applicativi tradizionali. Si tratta più di considerazioni sulla concorrenza, sulla pressione dei metadati e sulla propagazione che sul throughput grezzo. L’addestramento e la messa a punto creano modelli particolarmente impegnativi, come letture massivamente parallele di oggetti di piccole e medie dimensioni. Questi carichi di lavoro includono anche passaggi ripetuti di dati di training tra periodi e raffiche periodiche di scritture di checkpoint.

I carichi di lavoro RAG introducono la propria complessità attraverso l’espansione delle richieste. Una singola richiesta può comprendere decine o centinaia di dati aggiuntivi, che si riversano in ulteriori dettagli, parti correlate e documenti più complessi. La concentrazione dello stress è legata alla gestione delle richieste e al traffic shaping piuttosto che alla capacità e alla velocità del sistema di storage.

Rischi di associare strettamente i framework di intelligenza artificiale allo storage

Quando i framework AI si connettono direttamente agli endpoint di storage senza un livello di distribuzione intermedio, la fragilità operativa durante eventi di scalabilità, guasti e migrazioni al cloud aumenta rapidamente, il che può portare a gravi conseguenze.

"Qualsiasi squilibrio nel servizio di stoccaggio ha ormai un raggio di esplosione incontrollabile." Menger dice. "Qualunque cosa qui diventa un errore di sistema, non un errore di archiviazione. Oppure, francamente, un comportamento anomalo in un’applicazione può avere effetti a catena su tutti i consumatori di quel servizio di archiviazione."

Menger descrive un modello che ha osservato in tre diversi clienti in cui lo stretto accoppiamento portava al fallimento dell’intero sistema.

"Vediamo grandi carichi di lavoro di formazione o messa a punto che mettono a dura prova l’infrastruttura di storage e l’infrastruttura di storage si blocca." spiega. "Il miglioramento su questa scala non viene mai misurato in secondi. Qualche minuto se sei fortunato. Di solito ore. Le GPU non sono più alimentate. Sono affamati di dati. Queste risorse di alto valore hanno un ROI negativo durante il periodo in cui il sistema è inattivo."

In che modo un livello di distribuzione dei dati indipendente aumenta l’utilizzo e la stabilità della GPU?

L’impatto finanziario derivante dalla fornitura di un livello di distribuzione dei dati indipendente va oltre la prevenzione di guasti catastrofici.

Stringfellow afferma che l’allocazione consente di ottimizzare l’accesso ai dati indipendentemente dall’hardware di storage, migliorando l’utilizzo della GPU riducendo i tempi di inattività e i conflitti, migliorando al tempo stesso la prevedibilità dei costi e le prestazioni del sistema all’aumentare della scala.

"Il caching intelligente avvicina la modellazione del traffico e l’ottimizzazione del protocollo all’elaborazione, riducendo il throughput del cloud e i costi di aggiornamento dello storage." spiega. "Dal punto di vista operativo, questo isolamento protegge i sistemi di storage da modelli di accesso AI senza restrizioni, consentendo un comportamento dei costi più prevedibile e prestazioni stabili in condizioni di crescita e variabilità."

Utilizzando un checkpoint programmabile tra elaborazione e archiviazione

La risposta a F5 è posizionarlo. Piattaforma di distribuzione e sicurezza delle applicazioni basata su BIG-IPaspetto "porta d’ingresso portaoggetti" Fornisce routing attento allo stato di salute, prevenzione degli hotspot, applicazione delle policy e controlli di sicurezza senza la necessità di riscrivere l’applicazione.

"L’aggiunta di un livello di distribuzione tra elaborazione e archiviazione aiuta a definire i confini della responsabilità," Menger dice. "Si tratta di eseguire calcoli. Lo stoccaggio riguarda la durabilità. La consegna riguarda l’affidabilità."

Utilizzando la logica condizionale basata sugli eventi anziché l’intelligenza artificiale generativa, il checkpoint programmabile consente una gestione intelligente del traffico che va oltre il semplice bilanciamento del carico. Le decisioni di routing si basano sullo stato reale del backend, utilizzando la consapevolezza intelligente dello stato per rilevare i primi segnali di problemi. Ciò include il monitoraggio degli indicatori anticipatori del problema. Quando sorgono problemi, il sistema può isolare i componenti malfunzionanti senza interrompere l’intero servizio.

"Un livello di distribuzione dei dati indipendente e programmabile diventa necessario perché consente di applicare equamente policy, ottimizzazione, sicurezza e controllo del traffico attraverso i percorsi di acquisizione e consumo senza modificare i sistemi di storage o i framework di intelligenza artificiale." Stringfellow dice. "Separando l’accesso ai dati dall’applicazione di storage, le organizzazioni possono gestire in modo sicuro scritture rapide, ottimizzare le letture e proteggere i sistemi backend da modelli di accesso AI senza restrizioni."

Affrontare i problemi di sicurezza nella distribuzione dei dati dell’intelligenza artificiale

Stringfellow afferma che l’intelligenza artificiale non sta solo spingendo i team di storage nella produzione, ma li sta anche costringendo a considerare lo spostamento dei dati sia come un problema di prestazioni che di sicurezza. Poiché i dati risiedono all’interno del data center, la sicurezza non può più essere garantita. L’intelligenza artificiale introduce modelli di accesso automatizzati e ad alto volume che devono essere autenticati, crittografati e gestiti rapidamente. È qui che entra in gioco F5 BIG-IP.

"F5 BIG-IP si trova direttamente sul bus AI per fornire un accesso altamente efficiente allo storage degli oggetti, applicando al contempo policy, controllando il traffico e prendendo decisioni di gestione del traffico in base alle informazioni sul carico utile." Stringfellow dice. "Alimentare rapidamente le GPU è necessario ma non sufficiente; i team di storage ora hanno bisogno della certezza che i loro flussi di dati AI siano ottimizzati, controllati e sicuri."

Perché la distribuzione dei dati definirà la scalabilità dell’intelligenza artificiale

Guardando al futuro, i requisiti per la distribuzione dei dati diventeranno ancora più intensi, afferma Stringfellow.

"La distribuzione dei dati AI passerà dall’ottimizzazione di massa all’orchestrazione dei dati in tempo reale e basata su policy in sistemi distribuiti." dice. "Le architetture basate su broker e RAG richiederanno un controllo di runtime dettagliato su latenza, ambito di accesso e limiti di trust delegati. Le organizzazioni devono iniziare a considerare la distribuzione dei dati come un’infrastruttura programmabile, non come un sottoprodotto dello storage o della rete. Le organizzazioni che lo fanno in anticipo cresceranno più velocemente e con meno rischi."


Gli articoli sponsorizzati sono contenuti prodotti da un’azienda che ha pagato per il post o ha un rapporto commerciale con VentureBeat e sono sempre chiaramente contrassegnati. Contatta per maggiori informazioni sales@venturebeat.com.

Collegamento alla fonte