I ricercatori del Mila hanno proposto una nuova tecnica che rende i modelli linguistici di grandi dimensioni (LLM) molto più efficienti quando si eseguono ragionamenti complessi. nel nome Pensiero MarkovianoQuesto approccio consente agli LLM di eseguire ragionamenti a lungo termine senza incorrere nei costi computazionali proibitivi che attualmente limitano tali compiti.

L’implementazione del team, un ambiente chiamato Delethink, evita il problema di scalabilità che affligge le risposte LLM molto lunghe strutturando la catena di ragionamento in blocchi di dimensione fissa. Le stime preliminari mostrano che per un modello con parametri da 1,5 miliardi, questo metodo può ridurre i costi di formazione di oltre due terzi rispetto agli approcci standard.

La maledizione di secondo ordine del ragionamento a catena lunga

Affinché un LLM possa risolvere un problema complesso, deve produrre una lunga serie di indicatori di “pensiero” intermedi, spesso chiamati catena di pensiero (CoT). Negli ultimi anni, i ricercatori hanno scoperto che: apprendimento per rinforzo I modelli di addestramento (RL) per produrre CoT più lunghi (a volte indicati come LongCoT) hanno migliorato significativamente le loro capacità di ragionamento.

Ma il metodo standard per questo scopo ha un difetto critico: l’intelligenza artificiale "situazione" (il prompt più eventuali token ragionamento generati durante l’elaborazione fino a quel momento) cresce con ogni nuovo token ragionamento. per moderno modelli basati su trasformatoreCiò significa che il costo computazionale aumenta quadraticamente man mano che la catena di ragionamento si allunga, rendendo estremamente costoso addestrare modelli per compiti molto complessi.

La maggior parte dei tentativi attuali di gestire questo costo si concentra sulla limitazione della quantità di pensiero che il modello fa, favorendo implicitamente soluzioni più brevi o terminando anticipatamente il processo. Sebbene questi metodi forniscano un certo sollievo, i ricercatori Mila stanno ancora lavorando nell’ambito del LongCoT e sono quindi fondamentalmente vincolati alla sua natura di secondo ordine.

Invece di cercare di controllare la crescita computazionale, Mila ha creato un ambiente RL che elimina completamente il problema quadratico. Come spiega il coautore Amirhossein Kazemnejad, l’obiettivo è abilitare capacità come il ragionamento di più settimane e la scoperta scientifica. "Questo regime (e l’RL richiesto per abilitare tali capacità) non è supportato dall’attuale paradigma LongCoT a causa del costo computazionale quadratico." ha detto.

Pensare a pezzi con Delethink

La soluzione dei ricercatori è un paradigma che chiamano “paradigma”. "Pensatore markoviano," dove il modello esegue il ragionamento mantenendo costante la dimensione della finestra del contesto del ragionamento. L’idea di base è modificare separatamente l’installazione RL. "Quanto tempo pensa il modello?" da "quanto contesto deve gestire." Se eseguito correttamente, il pensatore markoviano trasforma il problema della crescita quadratica in un calcolo lineare e requisiti di memoria fissi per il ragionamento LLM.

I ricercatori hanno implementato questo paradigma attraverso Delethink, che costringe il modello a ragionare in blocchi di dimensioni fisse, come 8.000 monete, alla volta. In ogni pezzo la modella ragiona come fa normalmente, utilizzando il classico meccanismo dell’attenzione. Tuttavia, quando raggiunge il limite dello stack, l’ambiente reimposta il contesto, creando un nuovo prompt contenente una breve query oltre alla query originale. "trasferire" dalla traccia precedente. Il trasferimento potrebbe ad esempio riguardare gli ultimi token dell’episodio precedente di CoT o un riepilogo dei risultati più importanti.

Questa riorganizzazione del problema costringe il modello a imparare come incorporare un riassunto, o un riepilogo, dei suoi progressi. "stato markoviano testuale," Questo trasferimento continuerà la sua logica nel pezzo successivo. Ciò risolve la preoccupazione comune se il modello può ricordare dettagli importanti dei passaggi precedenti.

Secondo Kazemnejad, il modello impara ciò che deve ricordare. "Con l’addestramento… il modello è costretto a imparare a far avanzare la situazione mission-critical," spiegato. Aggiunto un chiarimento molto importante per un uso pratico: il prompt di accesso originale non viene modificato, nemmeno da documenti aggiunti o dati contestuali. “Il nostro approccio si concentra sulla fase del ragionamento e non cambia lo spunto," ha detto.

Delethink al lavoro

Per testare il loro approccio, i ricercatori hanno addestrato R1-Distill-1.5B con Delethink su un set di dati di problemi matematici competitivi e poi lo hanno valutato rispetto a vari parametri di riferimento. Il modello è stato addestrato a ragionare con un massimo di 24.000 monete, ma con blocchi fissi da 8.000 monete.

ricercatori confrontato questo con modelli addestrati con il metodo LongCoT-RL standard. I risultati mostrano che il modello addestrato da Delethink è stato in grado di ragionare con un massimo di 24.000 token e ha eguagliato o sovraperformato un modello LongCoT addestrato con lo stesso budget di 24.000 token nei benchmark matematici. Anche su altri compiti, come la codifica e le domande a livello di dottorato, Delethink ha raggiunto o leggermente superato la sua controparte LongCoT. “Nel complesso, questi risultati mostrano che Delethink utilizza i think token con la stessa efficacia di LongCoT-RL con meno transazioni”, scrivono i ricercatori.

Se si estende oltre il budget per la formazione, i vantaggi diventano ancora più evidenti. Mentre i modelli addestrati con LongCoT hanno raggiunto rapidamente i propri limiti di addestramento, il modello addestrato con Delethink ha continuato a migliorare le sue prestazioni. Ad esempio, alcuni problemi di matematica sono stati risolti solo dopo che il modello ha ragionato con un massimo di 140.000 monete, ben oltre il budget di formazione di 24.000 monete. Questo vantaggio del calcolo lineare è importante per le applicazioni aziendali. I ricercatori stimano che addestrare un modello a una lunghezza media di pensiero di 96.000 token richiederebbe 27 mesi di H100-GPU con LongCoT, contro solo 7 con Delethink.

Questa efficienza si riflette direttamente sui profitti, che rappresentano il costo operativo primario della maggior parte delle aziende. "I modelli addestrati sul pensiero markoviano utilizzano lo stesso stile di inferenza (delethink-tracing) per tutto il periodo di test; questo fornisce gli stessi vantaggi del calcolo lineare e della memoria immutabile dopo l’allenamento." disse Kazemnejad. Ha fornito un esempio pratico: un agente di intelligenza artificiale "Esegui il debug di una base di codice di grandi dimensioni e pensa a lungo… il che ovviamente riduce significativamente i costi rispetto al tradizionale approccio LongCoT."

È interessante notare che i ricercatori hanno scoperto che i modelli di ragionamento standard hanno dimostrato la capacità di pensare in stile Markov, anche senza alcuna formazione speciale. Questa scoperta ha implicazioni pratiche immediate per gli sviluppatori. "In pratica, ciò significa che senza Delethink-RL questi modelli possono già eseguire un wrapper di tracciamento delethink e funzionare in modo competitivo con LongCoT nelle nostre attività di benchmark." Kazemnejad ha detto:

I loro esperimenti con modelli più grandi GPT-OSS 120B Dimostrato ottime prestazioni su una serie di compiti complessi con Delethink. Questa capacità latente aiuta a spiegare perché il metodo è così efficace, fornendo un forte punto di partenza per la formazione in RL. “Insieme, questi risultati mostrano che Delethink è compatibile e può scalare con modelli all’avanguardia”, hanno affermato i ricercatori.

Il successo del pensiero markoviano dimostra che ciò è possibile "Modelli di ragionamento di prossima generazione per pensare con milioni di token," Ciò apre la strada a capacità di intelligenza artificiale fondamentalmente nuove che vanno oltre i limiti attuali, osservano i ricercatori.

"Il pensiero markoviano… apre la strada a modelli in grado di “pensare” su orizzonti molto lunghi, che consideriamo un passo necessario verso la scoperta scientifica definitiva," Kazemnejad ha detto: "Il nostro approccio elimina un collo di bottiglia chiave e può consentire l’addestramento per missioni con un orizzonte molto più lungo, abilitando capacità di prossima generazione."

Collegamento alla fonte