ScaleOps ha ampliato la propria piattaforma di gestione delle risorse cloud con un nuovo prodotto per le organizzazioni che eseguono modelli LLM (Large Language Model) self-hosted e applicazioni AI basate su GPU.
Il prodotto per l’infrastruttura AI annunciato oggiEspande le capacità di automazione esistenti dell’azienda per soddisfare la crescente esigenza di utilizzo efficiente della GPU, prestazioni prevedibili e riduzione dei costi operativi nelle implementazioni di intelligenza artificiale su larga scala.
L’azienda ha affermato che il sistema funziona già in ambienti di produzione aziendale e offre importanti miglioramenti in termini di efficienza ai primi utilizzatori, riducendo i costi della GPU dal 50% al 70%, secondo l’azienda. L’azienda non elenca pubblicamente i prezzi aziendali per questa soluzione e invita invece i clienti interessati a ottenere un preventivo personalizzato in base alle dimensioni e alle esigenze della loro attività Qui.
Spiegando come si comporta il sistema sotto carico pesante, il CEO e co-fondatore di ScaleOps Yodar Shafrir ha osservato in un’e-mail a VentureBeat che la piattaforma utilizza “meccanismi proattivi e reattivi per gestire picchi improvvisi senza influire sulle prestazioni” e che le sue politiche di livellamento del carico di lavoro “gestiscono automaticamente la capacità per mantenere le risorse disponibili”.
Ha aggiunto che ridurre al minimo le latenze di avvio a freddo della GPU è una priorità, sottolineando che il sistema “fornisce una risposta immediata quando il traffico aumenta”, in particolare per i carichi di lavoro AI in cui i tempi di caricamento dei modelli sono critici.
Estensione dell’automazione della saldatura all’infrastruttura AI
Le organizzazioni che implementano modelli di intelligenza artificiale self-hosted devono far fronte a variabilità delle prestazioni, tempi di caricamento lunghi e persistente sottoutilizzo delle risorse GPU. ScaleOps ha posizionato il suo nuovo prodotto di infrastruttura AI come risposta diretta a questi problemi.
La piattaforma alloca e ridimensiona le risorse GPU in tempo reale e si adatta ai cambiamenti nella domanda di traffico senza richiedere modifiche alle pipeline di distribuzione del modello esistente o al codice dell’applicazione.
Secondo ScaleOps, il sistema gestisce ambienti di produzione per organizzazioni come Wiz, DocuSign, Rubrik, Coupa, Alkami, Vantor, Grubhub, Island, Chewy e diverse aziende Fortune 500.
Il prodotto AI Infra offre policy di scalabilità sensibili al carico di lavoro che regolano in modo proattivo e reattivo la capacità per mantenere le prestazioni durante i picchi di domanda. La società ha affermato che queste politiche riducono i ritardi di avvio a freddo associati al caricamento di modelli IA di grandi dimensioni, migliorando la reattività quando il traffico aumenta.
Integrazione tecnica e compatibilità della piattaforma
Il prodotto è progettato per essere compatibile con i comuni modelli di infrastruttura aziendale. Funziona su tutte le distribuzioni Kubernetes, le principali piattaforme cloud, data center locali e ambienti air-gapped. ScaleOps ha sottolineato che la distribuzione non richiede modifiche al codice, riscrittura dell’infrastruttura o modifiche ai manifest esistenti.
La piattaforma “si integra perfettamente nelle pipeline di distribuzione del modello esistente senza richiedere modifiche al codice o all’infrastruttura”, ha affermato Shafrir, aggiungendo che i team possono iniziare immediatamente a ottimizzare con gli strumenti GitOps, CI/CD, monitoraggio e distribuzione esistenti.
Shafrir ha anche parlato di come l’automazione interagisce con i sistemi esistenti. La piattaforma funziona senza interrompere i flussi di lavoro o creare conflitti con la pianificazione personalizzata o la logica di scalabilità, ha affermato, spiegando che il sistema “non modifica le notifiche o la logica di distribuzione” e invece migliora gli scheduler, gli autoscaler e le policy personalizzate incorporando un contesto operativo in tempo reale rispettando i limiti di configurazione esistenti.
Prestazioni, visibilità e controllo utente
La piattaforma offre visibilità completa sull’utilizzo della GPU, sul comportamento del modello, sui parametri prestazionali e sulle decisioni di ridimensionamento a più livelli, inclusi partizioni, carichi di lavoro, nodi e cluster. Sebbene il sistema applichi policy predefinite di dimensionamento del carico di lavoro, ScaleOps ha notato che i team di ingegneri hanno la possibilità di modificare tali policy in base alle necessità.
In pratica, l’azienda mira a ridurre o eliminare la messa a punto manuale che i team DevOps e AIOps in genere eseguono per gestire i carichi di lavoro AI. L’installazione richiede uno sforzo minimo; Viene definito da ScaleOps come un processo di due minuti che utilizza un singolo flag helm, al termine del quale è possibile attivare l’ottimizzazione con una singola azione.
Risparmio sui costi e casi di studio aziendali
ScaleOps riferisce che le prime implementazioni del prodotto AI Infra hanno portato a riduzioni dei costi delle GPU del 50-70% negli ambienti dei clienti. L’azienda ha fornito due esempi:
-
Una grande azienda di software creativo che utilizzava migliaia di GPU aveva un tasso di utilizzo medio del 20% prima di adottare ScaleOps. Il prodotto ha aumentato l’utilizzo, consolidato la capacità sottoutilizzata e consentito la riduzione dei nodi GPU. Queste modifiche hanno ridotto la spesa complessiva per la GPU di oltre la metà. L’azienda ha inoltre segnalato una riduzione del 35% della latenza per i carichi di lavoro chiave.
-
Una società di gioco globale ha utilizzato la piattaforma per ottimizzare un carico di lavoro Master dinamico in esecuzione su centinaia di GPU. Secondo ScaleOps, il prodotto ha aumentato di sette volte l’utilizzo mantenendo inalterate le prestazioni a livello di servizio. Il cliente ha stimato che solo con questo carico di lavoro avrebbe risparmiato 1,4 milioni di dollari all’anno.
ScaleOps ha osservato che i risparmi attesi sulla GPU in genere superano i costi di acquisizione e gestione della piattaforma e che i clienti con budget infrastrutturali limitati segnalano un rapido ritorno sull’investimento.
Contesto del settore e prospettiva aziendale
La rapida adozione di modelli di intelligenza artificiale self-hosted ha creato nuove sfide operative per le aziende, in particolare per quanto riguarda l’efficienza della GPU e la complessità della gestione di carichi di lavoro su larga scala. Shafrir ha descritto il panorama più ampio come quello in cui “l’infrastruttura AI nativa del cloud ha raggiunto il suo punto di rottura”.
“Le architetture cloud native hanno consentito grande flessibilità e controllo, ma introducono anche un nuovo livello di complessità”, ha affermato nell’annuncio. “La gestione delle risorse GPU su larga scala è diventata caotica; sprechi, problemi di prestazioni e costi alle stelle sono ormai la norma. La piattaforma ScaleOps è stata creata per risolvere questo problema. Fornisce una soluzione completa per la gestione e l’ottimizzazione delle risorse GPU in ambienti basati su cloud, consentendo alle organizzazioni di eseguire LLM e applicazioni IA in modo efficiente, conveniente e migliorando al contempo le prestazioni.”
Shafrir ha aggiunto che il prodotto riunisce tutte le funzioni di gestione delle risorse cloud necessarie per gestire diversi carichi di lavoro su larga scala. L’azienda ha posizionato la piattaforma come un sistema olistico per l’ottimizzazione continua e automatica.
Un approccio unificato al futuro
Con l’aggiunta del prodotto infrastruttura AI, ScaleOps mira a creare un approccio unificato alla gestione del carico di lavoro GPU e AI che si integri con l’infrastruttura aziendale esistente.
Le misurazioni iniziali delle prestazioni della piattaforma e i risparmi sui costi riportati dimostrano un focus su miglioramenti misurabili dell’efficienza all’interno dell’ecosistema in espansione delle implementazioni di IA self-hosted.















