Poiché i flussi di lavoro dell’intelligenza artificiale delle agenzie aumentano i costi e la latenza delle lunghe catene di ragionamento, riferisce un team dell’Università del Maryland, dei Lawrence Livermore National Laboratories, della Columbia University e di TogetherAI Ho trovato un modo per ottenere un aumento di efficienza 3 volte superiore vengono convertiti direttamente nei pesi del modello.
A differenza della decodificazione speculativa, che richiede un modello di redazione separato, questo approccio non richiede infrastrutture aggiuntive; richiede solo un singolo token personalizzato aggiunto all’architettura esistente del modello.
Limiti della previsione della prossima moneta
La successiva previsione delle monete (generando un testo di moneta per passaggio successivo) crea un tetto di produzione che diventa estremamente costoso quando i modelli devono produrre migliaia di monete. Questo collo di bottiglia è particolarmente comune quando migliaia di “catena di pensiero” token prima di produrre la risposta finale, portando a un’esperienza utente lenta e costosa.
La previsione di token multipli (MTP) offre un paradigma di training alternativo che consente a un modello linguistico di generare simultaneamente più token in un unico passaggio in avanti. Ad esempio, il modello può essere addestrato a prevedere un intero blocco di monete in una sola volta, invece di limitarsi a prevedere la moneta successiva.
John Kirchenbauer, dottorando in informatica presso l’Università del Maryland e coautore dell’articolo, ha dichiarato a VentureBeat che mentre ci muoviamo verso flussi di lavoro mediati, l’attenzione si sposta dal throughput complessivo alla velocità del singolo utente. "Oggi, con i think trace eccessivamente lunghi che stanno diventando la norma e i loop esterni mediati che aumentano ulteriormente questi costi, la latenza sta diventando una dimensione altrettanto importante dell’efficienza complessiva del servizio quanto i token lordi al secondo (TPS/GPU) per unità di hardware." Kirchenbauer ha dichiarato: “La previsione standard del batch next token è già ideale per il rendimento complessivo, ma il nuovo approccio "Per ridurre la latenza per un singolo utente, prova a saturare la GPU con la query di un solo utente."
Sono disponibili altri metodi, ma presentano anche degli svantaggi. "Vale la pena notare che la decodifica speculativa e i LLM di diffusione come alternativa orientata all’efficienza alla successiva previsione dei token (NTP) sono entrambe tecniche di accelerazione orientate al ritardo." Kirchenbauer ha detto: Ma la decodificazione speculativa richiede l’implementazione e la gestione di un sistema ausiliario. "bozza" modello che richiede più calcoli assoluti per la stesura e la convalida. D’altra parte, MTP "Sfrutta un tipo simile di compromesso, solo più semplice da servire e scientificamente interessante di per sé."
Tuttavia, i paradigmi MTP esistenti presentano dei limiti. L’obiettivo standard dell’addestramento di un modello linguistico per MTP prevede il confronto delle sue previsioni con il testo fondamentale in un set di dati. La trappola qui è che questa formazione standard insegna al modello a prevedere in modo indipendente la probabilità di un token in una determinata posizione, piuttosto che preoccuparsi della relazione comune tra un insieme di token.
Se un modello tenta di prevedere più monete contemporaneamente utilizzando questo metodo standard, sorgono due problemi principali. Il primo è l’incompatibilità grammaticale. Ad esempio, se un modello prevede due parole che seguono il prefisso "Il guardiano dello zoo diede loro da mangiare," può campionare in modo indipendente e produrre un’espressione incompatibile come questa: "carne di panda" O "bambù del leone" al suo posto "panda di bambù" e “carne di leone”.
Il secondo problema è la ripetizione degenerata. Poiché il testo tipico è imprevedibile, un modello che tenta di prevedere un token di 100 posizioni nel futuro sulla base di un set di dati standard farà solo supposizioni. "," Perché è la parola più usata in inglese. Ciò fa sì che il modello produca risultati senza senso come: "…Lui…" per posizioni in un lontano futuro.
Previsione di monete multiple tramite autodistillazione
Per risolvere il problema della generazione di token multipli, i ricercatori propongono una nuova tecnica educativa utilizzando lo schema studente-insegnante. Il modello studentesco, il modello che impara a prevedere più monete, crea un blocco deterministico multi-moneta. Un modello insegnante che funge da potente modello standard del linguaggio di previsione del token successivo valuta questo blocco. L’insegnante agisce come un critico calcolando quanto sia probabile e coerente la sequenza proposta dallo studente. Se lo studente suggerisce un’affermazione incompatibile come la seguente "bambù del leone," l’insegnante gli attribuisce un’elevata perdita e insegna allo studente a evitare questa struttura.
Il paradigma si ispira all’apprendimento per rinforzo basato su politiche perché il modello dello studente non si limita a memorizzare testo statico. Crea istantaneamente una rappresentazione completa (una sequenza di azioni nel gergo RL) in parallelo in un unico passaggio in avanti e ottiene una ricompensa a seconda di quanto l’insegnante ritiene che sia brava. A differenza dei metodi statici supervisionati, in cui le coppie di formazione sono predeterminate, il feedback qui è dinamico e generato in tempo reale dai risultati dello studente. L’insegnante forte verifica anche la coerenza dei token, il che impedisce al modello studentesco di apprendere risultati corrotti come parole ripetute.
La bellezza di questo approccio per gli sviluppatori risiede nella sua semplicità. "In realtà non ci sono modifiche all’architettura oltre all’aggiunta di un token personalizzato." Kirchenbauer ha detto: Questa tecnica sostituisce uno slot inutilizzato nella matrice di posizionamento esistente di un modello con uno
Per i team di ingegneri, ciò significa che l’adattamento può essere applicato a modelli già in produzione senza ricostruire la linea di produzione.
La generazione di più token contemporaneamente può comunque compromettere l’accuratezza della risposta al momento dell’inferenza. Per massimizzare la produttività senza compromettere la qualità dell’output, gli autori introducono una strategia di decodifica adattiva chiamata ConfAdapt.
ConfAdapt valuta una soglia di confidenza del 90% ad ogni passaggio. Il modello crea un blocco di token ma conserva solo i token che soddisfano o superano questa soglia di attendibilità elevata. L’affidabilità del modello è molto elevata quando il testo successivo è altamente prevedibile o strutturato. Accetterà ed emetterà grandi quantità di token contemporaneamente, risparmiando tempo di calcolo significativo su token semplici. Quindi concentra le costose migrazioni di token singoli su token più difficili che richiedono uno sforzo computazionale maggiore.
Mettere alla prova la previsione multi-token
Per vedere come funzionava nella pratica il paradigma di formazione, i ricercatori hanno applicato i loro metodi a modelli adattati all’istruzione popolare esplicita-intensa. Hanno testato il potente modello per uso generale Llama-3.1-8B-Magpie e il più piccolo ed efficiente Qwen3-4B-Instruct-2507, che viene spesso scelto per implementazioni aziendali sensibili ai costi. Entrambi i modelli sono stati messi a punto rispetto a MetaMathQA, un set di dati di problemi di matematica sintetici delle scuole elementari che si basa fortemente su tracce di ragionamento.
Gli esperimenti hanno rivelato un chiaro equilibrio tra velocità e precisione. Utilizzando la strategia ConfAdapt, il modello Llama-3.1-8B ha ottenuto un’accelerazione 3 volte maggiore sui benchmark matematici con un calo di precisione inferiore al 3%. Il modello Qwen3-4B ha raggiunto la stessa velocità 3x con un calo di precisione leggermente superiore del 7%. Impostazioni più aggressive possono fornire una velocità 5 volte superiore nonostante le penalità di precisione più elevate.
Il modo in cui ciò si traduce in attività del mondo reale dipende dalla prevedibilità. "Poiché l’approccio ConfAdapt adatta naturalmente l’accelerazione in base all’entropia naturale nel dominio, una volta che il modello “sa” esattamente cosa accadrà dopo, può rilasciarlo in un unico passaggio," ha notato che ciò porta ad un’enorme accelerazione su compiti prevedibili mentre si utilizzano più passaggi per risultati incerti.
Le accelerazioni sono state trasferite anche ad aree non incluse nella fase di addestramento con previsione multi-token. Ciò includeva compiti come matematica e ragionamento nello stesso ambito dei dati di addestramento, nonché compiti a tempo indeterminato come la scrittura creativa e il riepilogo.
Nonostante questo trasferimento di apprendimento, le aziende che utilizzano questi modelli per compiti specifici non dovrebbero fare affidamento interamente su di essi. "Il nostro suggerimento sarebbe quello di adattare/adattare il modello alla MTP utilizzando esempi tratti dal settore industriale specifico." Kirchenbauer ha detto: "Le prestazioni migliori si ottengono probabilmente se l’adattamento MTP viene eseguito utilizzando le richieste provenienti dal dominio di distribuzione."
Compatibilità e servizio su strada
Il gruppo di ricerca ha pubblicato il rapporto Modelli addestrati su Hugging Face e sarà pubblicato prossimamente Codice dei frame MTP. I team dell’infrastruttura che integrano questi modelli in vLLM o SGLang dovranno tenere conto dei cambiamenti nel modo in cui vengono eseguiti l’elaborazione batch e la memorizzazione nella cache KV; ma si tratta di un investimento tecnico una tantum, non di un onere continuo. Ma Kirchenbauer vede questo: "Non ci sono ostacoli evidenti all’integrazione" e ha confermato che la squadra "Collaborare con alcuni esperti di sistemi per determinare il percorso più breve verso l’integrazione."
Il consiglio di Kirchenbauer per i team che desiderano testare i modelli di rilascio: inizia con suggerimenti giocattolo come contare o ripetere una frase per vedere i vantaggi di ConfAdapt in azione, quindi adattare il modello utilizzando esempi dalla tua specifica area di distribuzione per ottenere i migliori risultati. "Nel complesso, ci aspettiamo che un’implementazione pronta per la produzione del nostro approccio possa semplificare il ciclo di vita della creazione e della distribuzione di modelli di agenti a bassa latenza." Kirchenbauer ha concluso le sue parole. "Mentre le tecniche di accelerazione esistenti per i modelli NTP si concentrano quasi esclusivamente sui meccanismi di inferenza e sulla logica, il nostro approccio incorpora parte della complessità nel modello stesso, rendendolo ampiamente complementare al lavoro esistente."















