La riduzione del costo dell’inferenza è spesso una combinazione di hardware e software. Una nuova analisi pubblicata da Nvidia giovedì descrive in dettaglio che quattro principali fornitori di inferenza hanno riportato un calo da 4 a 10 volte del costo per token.
Riduzioni drastiche dei costi sono state ottenute utilizzando la piattaforma Blackwell di Nvidia insieme a modelli open source. I dati di implementazione della produzione provenienti da Baseten, DeepInfra, Fireworks AI e Together AI mostrano significativi miglioramenti dei costi nel settore sanitario, dei giochi, delle chat degli agenti e del servizio clienti mentre le organizzazioni scalano l’intelligenza artificiale da progetti pilota a milioni di utenti.
Le riduzioni dei costi da 4 a 10 volte riportate dai fornitori di inferenza hanno richiesto la combinazione dell’hardware Blackwell con altri due elementi: stack software ottimizzati e il passaggio da modelli proprietari a modelli open source che ora corrispondono all’intelligenza a livello edge. Secondo l’analisi, i soli miglioramenti hardware hanno portato a guadagni 2x in alcune distribuzioni. Per ottenere una maggiore riduzione dei costi è stato necessario adottare formati a precisione inferiore come NVFP4 e abbandonare le API closed source che impongono tariffe elevate.
L’economia si rivela controintuitiva. Ridurre i costi di estrazione richiede investimenti in infrastrutture ad alte prestazioni perché i miglioramenti della produzione si traducono direttamente in costi inferiori per moneta.
"La performance è ciò che riduce il costo dell’inferenza," Dion Harris, senior manager delle soluzioni hyperscaler HPC e AI di Nvidia, ha dichiarato a VentureBeat in un’intervista esclusiva. "Ciò che vediamo nella deduzione è che la produzione si traduce letteralmente in valore reale in dollari e il costo viene ridotto."
Le implementazioni di produzione mostrano riduzioni dei costi da 4 a 10 volte
Nvidia ha dettagliato quattro implementazioni dei clienti in un post sul blog che mostra come la combinazione di infrastruttura Blackwell, stack software ottimizzati e modelli open source offra riduzioni dei costi nei diversi carichi di lavoro del settore. I casi di studio riguardano applicazioni ad alto volume in cui l’economia dell’inferenza determina direttamente la fattibilità aziendale.
Secondo Nvidia, Sully.ai ha ridotto i costi di inferenza dell’IA sanitaria del 90% (riduzione di 10 volte) aumentando allo stesso tempo i tempi di risposta del 65% passando da modelli proprietari a modelli open source in esecuzione sulla piattaforma basata su Blackwell di Baseten. L’azienda ha fatto risparmiare ai medici più di 30 milioni di minuti di tempo automatizzando le attività di codifica medica e di presa di appunti che in precedenza richiedevano l’immissione manuale dei dati.
Nvidia ha inoltre riferito che Latitude ha ridotto di 4 volte i costi di inferenza dei giochi per la sua piattaforma AI Dungeon eseguendo un ampio mix di modelli Expert (MoE) sulla distribuzione Blackwell di DeepInfra. Il costo per milione di token è sceso da 20 centesimi sulla precedente piattaforma Hopper di Nvidia a 10 centesimi su Blackwell, quindi a 5 centesimi dopo aver adottato il formato nativo NVFP4 a bassa precisione di Blackwell. Il solo hardware ha fornito un miglioramento di 2 volte, ma per raggiungere 4 volte è stato necessario un cambio di formato preciso.
Secondo Nvidia, Sentient Foundation ha ottenuto un miglioramento dell’efficienza dei costi dal 25% al 50% nella sua piattaforma di chat per agenti utilizzando lo stack di inferenza ottimizzato per Blackwell di Fireworks AI. La piattaforma gestisce complessi flussi di lavoro multi-agente ed ha elaborato 5,6 milioni di query in una sola settimana durante il suo lancio virale, mantenendo una bassa latenza.
Nvidia ha affermato di aver ottenuto una riduzione di 6 volte dei costi per query per l’assistenza clienti vocale basata sull’intelligenza artificiale eseguendo lo stack multi-modello di Decagon sull’infrastruttura Blackwell di Together AI. Anche durante l’elaborazione di migliaia di token per query, i tempi di risposta sono rimasti inferiori a 400 millisecondi; Ciò era fondamentale per le interazioni vocali, in cui i ritardi facevano sì che gli utenti riattaccassero o perdessero fiducia.
Fattori tecnici che forniscono un miglioramento di 10x rispetto a 4x
Le riduzioni dei costi da 4 a 10 volte tra le implementazioni riflettono diverse combinazioni di ottimizzazioni tecniche piuttosto che semplici differenze hardware. Tre fattori emergono come fattori trainanti principali: adozione precisa del formato, scelte dell’architettura del modello e integrazione dello stack software.
I formati precisi mostrano l’effetto più chiaro. Il caso di Latitude lo dimostra direttamente. Il passaggio da Hopper a Blackwell ha comportato una riduzione dei costi pari a 2 volte grazie ai miglioramenti dell’hardware. L’adozione del formato nativo a bassa precisione di Blackwell, NVFP4, ha raddoppiato questo miglioramento portandolo a un totale di 4x. NVFP4 riduce il numero di bit richiesti per rappresentare pesi e attivazioni del modello, consentendo più calcoli per ciclo GPU mantenendo la precisione. Il formato funziona particolarmente bene per i modelli MoE, dove solo un sottoinsieme del modello viene attivato per ogni richiesta di inferenza.
L’architettura del modello è importante. Abilitando diversi sottomodelli specializzati basati sull’input, i modelli MoE sfruttano il framework NVLink di Blackwell, che consente una rapida comunicazione tra esperti. "La comunicazione di questi esperti tramite la struttura NVLink consente di esprimere giudizi molto rapidamente." Ha detto Harris. I modelli densi che abilitano tutti i parametri per ciascuna inferenza non possono sfruttare in modo efficace questa architettura.
L’integrazione dello stack software crea ulteriori cambiamenti nelle prestazioni. Harris ha affermato che anche l’approccio di co-progettazione di Nvidia, in cui l’hardware Blackwell, l’architettura scalabile NVL72 e software come Dynamo e TensorRT-LLM sono ottimizzati insieme, ha fatto la differenza. Combinando NVFP4, TensorRT-LLM e Dynamo nella distribuzione Sully.ai di Baseten, abbiamo ottenuto una riduzione dei costi 10 volte utilizzando questo stack integrato. I fornitori che utilizzano framework alternativi come vLLM potrebbero riscontrare rendimenti inferiori.
Le caratteristiche del carico di lavoro contano. I modelli di ragionamento offrono alcuni vantaggi rispetto a Blackwell perché generano molti più token per arrivare a risposte migliori. La capacità della piattaforma di elaborare in modo efficiente questi array di token espansi tramite un servizio disaccoppiato, in cui la precompilazione del contesto e la generazione di token vengono gestite separatamente, rende i carichi di lavoro di ragionamento convenienti.
I team che valutano le potenziali riduzioni dei costi dovrebbero esaminare i profili del carico di lavoro in base a questi fattori. I carichi di lavoro ad elevata tokenizzazione che utilizzano modelli ibridi realizzati da esperti con uno stack software Blackwell integrato si avvicineranno alla gamma 10x. I volumi di token inferiori che utilizzano modelli densi su framework alternativi si avvicineranno a 4x.
Quali team devono testare prima della migrazione?
Sebbene questi casi di studio si concentrino sulle implementazioni di Nvidia Blackwell, le aziende hanno diversi modi per ridurre i costi di inferenza. La serie MI300 di AMD, i TPU di Google e gli acceleratori di inferenza personalizzati di Groq e Cerebras offrono architetture alternative. Anche i fornitori di servizi cloud continuano a ottimizzare i propri servizi di inferenza. La questione non è se Blackwell sia l’unica opzione, ma se la combinazione specifica di hardware, software e modelli si adatta ai requisiti specifici del carico di lavoro.
Le organizzazioni che prendono in considerazione l’inferenza basata su Blackwell dovrebbero iniziare calcolando se i loro carichi di lavoro giustificano i cambiamenti infrastrutturali.
"Le organizzazioni devono lavorare a ritroso rispetto ai propri carichi di lavoro e utilizzare casi d’uso e vincoli di costo." Shruti Koparkar del marketing dei prodotti AI di Nvidia ha dichiarato a VentureBeat:
Le implementazioni che hanno ottenuto miglioramenti da 6 a 10 volte hanno coinvolto tutte applicazioni sensibili alla latenza e ad alto volume che elaboravano milioni di richieste al mese. I team che eseguono applicazioni con volumi inferiori o applicazioni con budget di latenza superiori a un secondo dovrebbero esplorare l’ottimizzazione del software o il cambio di modello prima di prendere in considerazione gli aggiornamenti dell’infrastruttura.
I test sono più importanti delle specifiche del fornitore. Koparkar sottolinea che i fornitori pubblicano misurazioni di throughput e latenza, ma queste rappresentano le condizioni ideali.
"Se si tratta di un carico di lavoro altamente sensibile alla latenza, potrebbero voler testare alcuni fornitori e vedere chi soddisfa il minimo necessario mantenendo bassi i costi." ha detto. Invece di fare affidamento su benchmark pubblicati, i team dovrebbero eseguire carichi di lavoro di produzione reali su più fornitori Blackwell per misurare le prestazioni effettive in base a modelli di utilizzo e picchi di traffico specifici.
L’approccio graduale utilizzato da Latitude fornisce un modello per la valutazione. L’azienda è passata prima all’hardware Blackwell e ha misurato un miglioramento di 2 volte, quindi ha adottato il formato NVFP4 per ottenere una riduzione totale di 4 volte. I team che attualmente utilizzano Hopper o un’altra infrastruttura possono verificare se modifiche precise del formato e l’ottimizzazione del software sull’hardware esistente comportano risparmi significativi prima di avviare una migrazione completa dell’infrastruttura. L’esecuzione di modelli open source sull’infrastruttura esistente può garantire la metà della potenziale riduzione dei costi senza nuovi investimenti hardware.
La selezione del fornitore richiede la comprensione delle differenze dello stack software. Sebbene diversi fornitori offrano l’infrastruttura Blackwell, le applicazioni software variano. Alcuni eseguono lo stack integrato di Nvidia utilizzando Dynamo e TensorRT-LLM, mentre altri utilizzano framework come vLLM. Harris riconosce che esistono differenze di prestazioni tra queste configurazioni. Piuttosto che dare per scontato che tutte le implementazioni Blackwell funzionino allo stesso modo, i team dovrebbero valutare cosa esegue effettivamente ciascun provider e come si adatta alle esigenze del carico di lavoro.
L’equazione economica va oltre il costo per gettone. I provider di inferenza specializzati come Baseten, DeepInfra, Fireworks e Together offrono implementazioni ottimizzate ma richiedono la gestione di ulteriori rapporti con i fornitori. I servizi gestiti da AWS, Azure o Google Cloud potrebbero avere costi per token più elevati ma una complessità operativa inferiore. I team dovrebbero calcolare il costo totale, comprese le spese generali operative, non solo i prezzi di inferenza, per determinare quale approccio fornisce la migliore economia per la loro situazione particolare.















