Le organizzazioni che espandono le proprie implementazioni di intelligenza artificiale si trovano a scontrarsi con un muro invisibile delle prestazioni. È colpevole? Speculatori statici che non riescono a tenere il passo con i cambiamenti dei carichi di lavoro.
Gli speculatori sono modelli di intelligenza artificiale più piccoli che lavorano insieme a modelli linguistici più grandi durante l’inferenza. In futuro, preparano più token e il modello principale li convalida in parallelo. Questa tecnica (chiamata decodifica speculativa) è diventata indispensabile per le organizzazioni che cercano di ridurre i costi di inferenza e la latenza. Invece di generare token uno per uno, il sistema può accettare più token contemporaneamente, il che aumenta significativamente la produttività.
Intelligenza artificiale insieme ha annunciato oggi un nuovo sistema e una ricerca denominata ATLAS (AdapTive-LeArning Speculator System), che mira ad aiutare le imprese a superare le sfide poste dagli speculatori statici. La tecnica fornisce una funzionalità di ottimizzazione dell’inferenza con autoapprendimento che può aiutare a fornire prestazioni di inferenza fino al 400% più veloci rispetto al livello di prestazioni di base disponibile nelle tecnologie di inferenza esistenti come vLLM. Il sistema affronta un problema critico: man mano che i carichi di lavoro dell’intelligenza artificiale si evolvono, le velocità di inferenza diminuiscono, anche quando sono disponibili speculatori dedicati.
Quale compagnia iniziato Concentrato sul 2023 ottimizzando l’inferenza sulla piattaforma AI aziendale. L’azienda all’inizio di quest’anno Raccolti 305 milioni di dollari Con l’aumento dell’adozione e della domanda da parte dei clienti.
"In generale, le aziende con cui lavoriamo vedono i loro carichi di lavoro cambiare man mano che crescono e non vedono la stessa accelerazione nelle domande speculative." Tri Dao, capo scienziato di Together AI, ha detto a VentureBeat in un’intervista esclusiva. "Questi speculatori generalmente non funzionano bene quando le aree di carico di lavoro iniziano a cambiare."
Il problema della deriva del carico di lavoro di cui nessuno parla
La maggior parte degli speculatori nella produzione oggi "statico" modelli. Vengono addestrati una volta su un set di dati fisso che rappresenta i carichi di lavoro previsti, quindi distribuiti senza alcuna capacità di adattamento. Aziende come Meta e Mistral spediscono speculatori pre-addestrati insieme ai loro modelli principali. Le piattaforme di inferenza come vLLM utilizzano questi speculatori statici per aumentare il throughput senza modificare la qualità dell’output.
Ma c’è un problema. Con l’evolversi dell’uso dell’intelligenza artificiale da parte di un’organizzazione, l’accuratezza dello speculatore statico diminuisce.
"Se sei un’azienda che produce agenti di codifica e la maggior parte dei tuoi sviluppatori scrive in Python, alcuni di loro passano improvvisamente a scrivere Rust o C, allora vedi che la velocità inizia a diminuire," Dao ha spiegato. "Esiste una discrepanza tra ciò per cui lo speculatore è stato addestrato e quale sia il carico di lavoro effettivo."
Questo spostamento del carico di lavoro rappresenta una tassa nascosta sulla scalabilità dell’intelligenza artificiale. Le imprese o accettano performance inferiori o investono nella riqualificazione degli speculatori privati. Questo processo cattura solo un’istantanea in tempo e diventa rapidamente obsoleto.
Come funzionano gli speculatori adattivi: un approccio a doppio modello
ATLAS utilizza un’architettura a doppio speculatore che combina stabilità e adattabilità:
speculatore statico – Un modello pesante addestrato con ampi dati fornisce prestazioni di base coerenti. serve come "piano di velocità."
Speculatore adattivo – Un modello leggero apprende continuamente dal traffico in tempo reale. Padroneggia istantaneamente i nomi di dominio emergenti e i modelli di utilizzo.
Fidati del controllore consapevole – Uno strato di orchestrazione sceglie dinamicamente quale speculatore utilizzare. Corregge le speculazioni "guarda avanti" sulla base dei punteggi di fiducia.
"Abbiamo ancora lo speculatore statico per aiutare a ottenere l’aumento di velocità iniziale prima che lo speculatore adattivo impari qualcosa." Ben Athiwaratkun, scienziato dell’intelligenza artificiale presso Together AI, ha spiegato a VentureBeat. "Man mano che lo speculatore adattivo diventa più fiducioso, la velocità aumenta nel tempo."
L’innovazione tecnica sta nel bilanciare il tasso di accettazione (quanto spesso il modello target è compatibile con i token in bozza) e la latenza della bozza. Man mano che il modello adattivo apprende dai modelli di traffico, il controllore si fida maggiormente dello speculatore leggero e si espande in avanti. Ciò aumenta i miglioramenti in termini di prestazioni.
Gli utenti non devono impostare alcun parametro. "Dal lato utente, gli utenti non devono ruotare alcuna manopola." Ha detto Dao. "Da parte nostra, abbiamo ruotato queste manopole in modo che gli utenti possano sintonizzarsi su una configurazione che fornisca una buona accelerazione."
Prestazioni che rivaleggiano con il silicone personalizzato
I test dell’IA mostrano che ATLAS raggiunge 500 token al secondo su DeepSeek-V3.1 quando è completamente adattato. Ancora più impressionante, questi numeri sulle GPU Nvidia B200 corrispondono o superano i chip di inferenza dedicati come: Quello di Groq hardware speciale.
"L’ottimizzazione software e algoritmica può colmare il divario con hardware veramente specializzato." Ha detto Dao. "Su questi enormi modelli vedevamo 500 monete al secondo, una velocità addirittura superiore a quella di alcuni chip specializzati."
L’accelerazione del 400% dichiarata dall’azienda per l’inferenza rappresenta l’effetto cumulativo della suite di ottimizzazione Turbo di Together. La quantizzazione FP4 fornisce un’accelerazione dell’80% rispetto alla linea di base FP8. Static Turbo Speculator aggiunge un ulteriore guadagno dell’80-100%. Strati del sistema adattivo in alto. Ogni ottimizzazione combina i vantaggi delle altre.
Rispetto ai motori di inferenza standard come vLLM o TensorRT-LLM di Nvidia, il miglioramento è significativo. L’intelligenza artificiale confronta insieme la linea di base più forte tra i due per ciascun carico di lavoro prima di applicare ottimizzazioni speculative.
Spiegazione dello scambio di memoria-calcolo
I miglioramenti in termini di prestazioni derivano dallo sfruttamento di un’inefficienza fondamentale nell’inferenza moderna: capacità di calcolo sprecata.
Dao ha spiegato che spesso durante l’inferenza gran parte della potenza di calcolo non viene utilizzata completamente.
"Utilizzi principalmente il sottosistema di memoria durante l’inferenza, che è il carico di lavoro dominante al giorno d’oggi." ha detto.
La decodifica speculativa sostituisce il calcolo inattivo per minori accessi alla memoria. Quando un modello genera un token alla volta, è legato alla memoria. La GPU rimane inattiva mentre la memoria attende. Ma quando lo speculatore propone cinque token e il modello target li convalida simultaneamente, l’utilizzo del computer aumenta rapidamente mentre l’accesso alla memoria rimane pressoché costante.
"La quantità totale di elaborazione richiesta per creare cinque token è la stessa, ma dovevi accedere alla memoria solo una volta, non cinque volte." Ha detto Dao.
Consideralo come un caching intelligente per l’intelligenza artificiale
Per i team infrastrutturali che hanno familiarità con l’ottimizzazione tradizionale dei database, gli speculatori adattivi funzionano come un livello di caching intelligente, ma con una differenza cruciale.
I sistemi di memorizzazione nella cache tradizionali come Redis o memcached richiedono corrispondenze esatte. Memorizzi esattamente lo stesso risultato della query e ottieni quel risultato quando la query viene eseguita nuovamente. Gli speculatori adattivi funzionano diversamente.
"Puoi vederlo come un modo intelligente di memorizzare nella cache, non esattamente di archiviare ma di risolvere alcuni dei modelli che vedi." Dao ha spiegato. "In generale, osserviamo che lavori con codice simile o lavori in modo simile, ovvero controlli l’informatica in modo simile. Quindi possiamo prevedere cosa dirà il grande modello. Stiamo migliorando nel prevederlo."
Invece di memorizzare risposte esatte, il sistema apprende modelli su come il modello genera token. Riconosce che alcune sequenze di token diventano più probabili se si organizzano file Python in una particolare codebase. Adattandosi a questi modelli, lo speculatore migliora le sue previsioni nel tempo senza aver bisogno degli stessi input.
Casi d’uso: formazione RL e carichi di lavoro in evoluzione
Due scenari istituzionali avvantaggiano particolarmente gli speculatori adattivi:
Formazione sull’apprendimento per rinforzo: Gli speculatori statici perdono rapidamente il loro allineamento man mano che la politica evolve durante la formazione. ATLAS si adatta continuamente ai cambiamenti nella distribuzione delle politiche.
Carichi di lavoro in evoluzione: la composizione del carico di lavoro sta cambiando man mano che le organizzazioni esplorano nuovi casi d’uso dell’intelligenza artificiale. "Forse hanno iniziato a usare l’intelligenza artificiale per i chatbot, ma poi si sono resi conto che possono scrivere codice e stanno iniziando a passare al codice." Ha detto Dao. "Oppure si rendono conto che queste IA possono effettivamente evocare veicoli, controllare computer, fare contabilità e cose del genere."
In una sessione di codifica jitter, il sistema adattivo può specializzarsi per la particolare base di codice da modificare. Questi sono file che non vengono visualizzati durante l’allenamento. Ciò aumenta ulteriormente i tassi di accettazione e la velocità di decodifica.
Cosa significa per le aziende e per l’ecosistema di inferenza?
ATLAS è ora disponibile come parte della piattaforma sugli endpoint privati di Together AI senza costi aggiuntivi. Gli oltre 800.000 sviluppatori dell’azienda (rispetto ai 450.000 di febbraio) hanno accesso all’ottimizzazione.
Ma le implicazioni più ampie vanno oltre il prodotto di un singolo fornitore. Il passaggio dall’ottimizzazione statica all’ottimizzazione adattiva rappresenta un ripensamento fondamentale di come dovrebbero funzionare le piattaforme di inferenza. Man mano che le aziende implementano l’intelligenza artificiale in più domini, il settore dovrà andare oltre i modelli addestrati una tantum verso sistemi che apprendono e migliorano costantemente.
Together AI ha in passato rilasciato alcune delle sue tecniche di ricerca come open source e collaborato con progetti come vLLM. Sebbene il sistema ATLAS completamente integrato sia proprietario, alcune delle tecniche sottostanti potrebbero in definitiva avere un impatto sull’ecosistema di inferenza più ampio.
Per le organizzazioni che desiderano essere leader nel campo dell’intelligenza artificiale, il messaggio è chiaro: gli algoritmi adattivi nell’hardware di base possono essere abbinati a silicio personalizzato a una frazione del costo. Man mano che questo approccio matura in tutto il settore, l’ottimizzazione del software prevale sempre più sull’hardware dedicato.















