Ogni cluster GPU ha tempi morti. I lavori di formazione terminano, i carichi di lavoro cambiano e l’hardware rimane all’oscuro mentre i costi di alimentazione e raffreddamento persistono. Per gli operatori Neocloud, questi cicli vuoti rappresentano un margine perso.
L’ovvia soluzione alternativa sono i mercati spot delle GPU, affittando la capacità inutilizzata a chiunque ne abbia bisogno. Ma le istanze spot significano che è ancora il fornitore del cloud a fare il leasing, e gli ingegneri che acquistano quella capacità stanno ancora pagando per il calcolo grezzo senza stack di inferenza collegato.
La risposta di FriendliAI è diversa: esegui l’inferenza direttamente sull’hardware inutilizzato, ottimizza il throughput dei token e condividi le entrate con l’operatore. FriendliAI è stata fondata dal ricercatore Byung-Gon Chun, il cui articolo sul binning continuo ha costituito la base di vLLM, il motore di inferenza open source utilizzato oggi nella maggior parte delle implementazioni di produzione.
In qualità di professore alla Seoul National University, Chun ha trascorso più di un decennio lavorando sull’applicazione efficace dei modelli di apprendimento automatico su larga scala. Questa ricerca ha prodotto un articolo intitolato orcaintrodotto la miscelazione continua. La tecnica elabora le richieste di inferenza in modo dinamico anziché attendere il popolamento di un batch fisso prima dell’esecuzione. Ora è lo standard del settore e il meccanismo principale di vLLM.
FriendliAI lancia questa settimana una nuova piattaforma chiamata InferenceSense. Proprio come gli editori utilizzano Google AdSense per monetizzare l’inventario pubblicitario invenduto, gli operatori neocloud possono utilizzare InferenceSense per riempire i cicli GPU inutilizzati con carichi di lavoro di inferenza AI a pagamento e raccogliere una quota delle entrate dei token. L’attività propria dell’operatore ha sempre la priorità; InferenceSense ritorna non appena lo scheduler recupera una GPU.
"Ciò che abilitiamo è che invece di lasciare le GPU inattive, possono monetizzare le GPU inattive eseguendo inferenze." Chun ha detto a VentureBeat.
In che modo il laboratorio della Seoul National University ha costruito il motore all’interno di vLLM?
Chun ha fondato FriendliAI nel 2021, prima che gran parte del settore spostasse l’attenzione dall’istruzione alle inferenze. Il prodotto principale dell’azienda è un servizio endpoint di inferenza specializzato per iniziative di intelligenza artificiale e organizzazioni che eseguono modelli ad alto rischio di vulnerabilità. FriendliAI appare anche come opzione di distribuzione su Azure, AWS e GCP, nonché su Hugging Face, e attualmente supporta oltre 500.000 modelli ad alto rischio di vulnerabilità sulla piattaforma.
InferenceSense ora estende questo motore di inferenza per coprire il problema di capacità che gli operatori GPU devono affrontare nei carichi di lavoro.
Come funziona?
InferenceSense funziona su Kubernetes, che la maggior parte degli operatori neocloud attualmente utilizza per l’orchestrazione delle risorse. Un operatore assegna un pool GPU a un cluster Kubernetes gestito da FriendliAI, informando quali nodi sono disponibili e a quali condizioni. Il rilevamento dei periodi di inattività viene eseguito tramite Kubernetes stesso.
"Abbiamo il nostro orchestratore in esecuzione su GPU di questi fornitori di neocloud (o semplicemente cloud)." Chun ha detto. "Stiamo sicuramente sfruttando Kubernetes, ma il software in esecuzione su di esso è davvero uno stack di inferenza altamente ottimizzato."
Quando le GPU non sono in uso, InferenceSense esegue contenitori isolati che forniscono carichi di lavoro di inferenza a pagamento in modelli ad alto rischio di exploit, come DeepSeek, Qwen, Kimi, GLM e MiniMax. I carichi di lavoro di inferenza vengono anticipati e le GPU vengono restituite quando lo scheduler dell’operatore necessita di hardware. FriendliAI afferma che il processo di consegna avviene in pochi secondi.
La domanda viene raccolta tramite i clienti diretti di FriendliAI e gli aggregatori di inferenza come OpenRouter. L’operatore fornisce la capacità; FriendliAI gestisce la pipeline della domanda, l’ottimizzazione del modello e lo stack di servizi. Non sono previste commissioni anticipate né impegno minimo. Una dashboard in tempo reale mostra agli operatori quali modelli sono in esecuzione, i token elaborati e le entrate maturate.
Perché il rendimento dei token supera l’affitto della capacità grezza?
I mercati spot delle GPU di fornitori come CoreWeave, Lambda Labs e RunPod implicano che il fornitore del cloud noleggi il proprio hardware a terzi. InferenceSense funziona su hardware già in possesso dell’operatore neocloud; L’operatore definisce quali nodi parteciperanno e stipula accordi di pianificazione anticipata con FriendliAI. La differenza è importante: i mercati spot guadagnano dalla capacità, mentre InferenceSense guadagna dai token.
Il throughput delle monete per clock della GPU determina quanto InferenceSense può effettivamente guadagnare durante le finestre di inattività. FriendliAI afferma che il suo motore offre da due a tre volte il throughput di una distribuzione vLLM standard, anche se Chun nota che la cifra varia a seconda del tipo di carico di lavoro. La maggior parte degli stack di inferenza concorrenti sono costruiti su framework open source basati su Python. Il motore di FriendliAI è scritto in C++ e utilizza core GPU personalizzati invece della libreria cuDNN di Nvidia. L’azienda ha creato il proprio livello di rappresentazione del modello per partizionare ed eseguire modelli su hardware, con le proprie implementazioni di decodifica speculativa, quantizzazione e gestione della cache KV.
Poiché il motore di FriendliAI elabora più token per ora GPU rispetto a uno stack vLLM standard, gli operatori devono generare più entrate per ciclo inutilizzato mantenendo a galla i propri servizi di inferenza.
Cosa dovrebbero seguire gli ingegneri dell’intelligenza artificiale quando valutano i costi di inferenza
Per gli ingegneri dell’intelligenza artificiale che valutano dove eseguire i carichi di lavoro di inferenza, la decisione tra neocloud e hyperscaler spesso dipende dal prezzo e dalla disponibilità.
InferenceSense aggiunge un nuovo pensiero: se i neocloud riescono a monetizzare la capacità inattiva attraverso l’inferenza, hanno maggiori incentivi economici per mantenere competitivi i prezzi dei token.
Questo non è un motivo per cambiare oggi le decisioni sulle infrastrutture; E’ ancora presto. Ma gli ingegneri che monitorano il costo totale dell’inferenza dovrebbero monitorare se l’adozione del neocloud di piattaforme come InferenceSense eserciterà una pressione al ribasso sui prezzi delle API per modelli come DeepSeek e Qwen nei prossimi 12 mesi.
"Quando avremo fornitori più efficienti, il costo complessivo diminuirà," Chun ha detto. "Con InferenceSense possiamo contribuire a rendere questi modelli più economici."















