ricercatori GoogleNuvola E UCLA ha proposto un nuovo quadro di apprendimento per rinforzo che migliora significativamente la capacità dei modelli linguistici di apprendere compiti di ragionamento in più fasi molto impegnativi. Apprendimento per rinforzo supervisionato (SRL) riformula la risoluzione dei problemi come un insieme di “azioni” logiche che forniscono ricchi segnali di apprendimento durante il processo educativo.

Questo approccio consente ai modelli più piccoli di apprendere problemi complessi precedentemente inaccessibili ad altre tecniche di formazione comuni. Gli esperimenti dimostrano che l’SRL non solo ha successo sui criteri di ragionamento matematico, ma generalizza anche efficacemente ai compiti attivi di ingegneria del software.

SRL è un quadro di formazione versatile che può aggiornare modelli più piccoli ed economici con capacità di ragionamento più elevate.

Limiti dell’attuale formazione al ragionamento del Master

I recenti progressi nell’addestramento di modelli linguistici di grandi dimensioni (LLM) per il ragionamento sono in gran parte dovuti all’apprendimento per rinforzo con ricompense verificabili (RLVR), un metodo in cui la risposta finale di un modello viene premiata in base alla sua accuratezza. Provando ripetutamente a risolvere i problemi e ricevendo feedback sul risultato finale, il modello apprende gradualmente strategie efficaci di risoluzione dei problemi.

Tuttavia, il successo di questo approccio orientato ai risultati dipende dalla capacità del modello di trovare la soluzione corretta in un numero limitato di tentativi o "lancio." I modelli non possono sperimentare all’infinito perché ogni implementazione è computazionalmente costosa. Questo metodo si scontra con un muro quando i problemi sono molto difficili e il modello raramente trova la risposta giusta entro il suo budget.

Ciò crea un collo di bottiglia critico nell’apprendimento. In molti problemi di ragionamento a più passaggi, un modello può risolvere correttamente diversi passaggi ma essere deragliato da un singolo errore, portando a una risposta errata. Con RLVR, tutto questo sforzo ottiene una ricompensa negativa, e il modello non impara nulla dal suo funzionamento parzialmente corretto. Questo è un approccio tutto o niente che non riesce a fornire un feedback dettagliato e fornisce ricompense poco frequenti.

Un metodo alternativo è il supervisioned fine tuning (SFT), in cui il modello apprende da esempi che includono l’intero processo di ragionamento posto dagli esperti. Sebbene la PFT possa instillare capacità di ragionamento, spesso porta a un overfitting (il modello impara semplicemente a imitare le traiettorie nei dati di addestramento anziché imparare a generalizzare ai problemi oltre gli esempi visti). Questo problema è aggravato dal fatto che i dati sulla formazione di alta qualità realizzati dall’uomo sono scarsi e costosi da produrre.

Come affermato nell’articolo, queste limitazioni stanno scomparendo "Una lacuna critica nella formazione di piccoli modelli open source per apprendere in modo efficace problemi difficili."

Come funziona l’apprendimento per rinforzo supervisionato?

SRL fornisce un quadro che riformula la risoluzione dei problemi. "processo decisionale sequenziale," Trovare un equilibrio tra puro apprendimento basato sui risultati e puro apprendimento per imitazione. Piuttosto che limitarsi a ottimizzare per la risposta finale o forzare il modello a imitare l’intero processo di pensiero di un esperto, SRL insegna al modello a riprodurre una serie di azioni di base che costituiscono la spina dorsale del ragionamento dell’esperto. Ciò consente al modello di imparare a intraprendere azioni simili a un esperto sviluppando al contempo il proprio stile di ragionamento interno.

Nell’ambito della SRL, le dimostrazioni degli esperti sono suddivise in una serie di azioni concrete e intermedie, ciascuna delle quali rappresenta un passo significativo. Per un problema di matematica, un’azione potrebbe essere una manipolazione algebrica. Per un agente di ingegneria del software, questo potrebbe essere un comando eseguito in un repository di codice. Per generare dati di addestramento, SRL utilizza un potente modello insegnante per generare traiettorie di soluzione che vengono poi utilizzate per addestrare un modello più piccolo.

Questo approccio intermedio è fondamentale per la sua efficacia negli scenari del mondo reale, secondo I-Hung Hsu, ricercatore di Google e coautore dell’articolo. "SRL è nel mezzo: cattura la flessibilità strutturale della risoluzione dei problemi del mondo reale, dove esiste più di una strategia valida ma anche concetti chiari su come si presenta il “buon giudizio” in ogni fase." Hsu ha detto a VentureBeat. "Ciò rende SRL adatta ad aree come l’automazione della scienza dei dati o eventualmente l’ottimizzazione della catena di fornitura; si tratta di compiti che premiano un valido ragionamento intermedio piuttosto che semplici risposte finali."

Durante l’allenamento, prima il modello "monologo interiore" ( processo di ragionamento interno racchiuso in etichette). Ad ogni passaggio, SRL fornisce una ricompensa basata sulla somiglianza tra l’azione prevista dal modello e l’azione dell’esperto. Questo sistema di ricompensa passo-passo fornisce un feedback intenso e dettagliato, consentendo al modello di apprendere e migliorare anche se la sua soluzione complessiva non è perfetta. Ciò risolve il problema della scarsa ricompensa che RLVR deve affrontare.

S.R.L. al lavoro

Gli esperimenti dei ricercatori mostrano che SRL supera significativamente le solide linee di base sia sul ragionamento matematico impegnativo che sui parametri di riferimento attivi dell’ingegneria del software. Hanno anche osservato che la SRL incoraggia modelli di ragionamento più flessibili e complessi in modelli come la pianificazione distanziata e l’autoverifica, che migliorano la qualità della soluzione senza semplicemente allungare i risultati.

Per i leader aziendali, i miglioramenti in termini di performance sono preziosi solo se non comportano costi fuori controllo. Hsu spiega che i modelli addestrati con SRL sono più efficienti in termini di ragionamento. "I vantaggi non derivano dai dettagli, ma da una migliore qualità e struttura del giudizio." ha detto. "In termini di efficienza, i modelli addestrati con SRL sono più o meno alla pari con il modello di base nell’utilizzo dei token… Sebbene SRL non sia progettato per ridurre i costi di inferenza, raggiunge prestazioni di ragionamento più forti senza potenziamento."

Il team modifica i test di matematica Qwen2.5-7B-Istruzioni su un set di dati di 1000 domande di matematica difficili. Hanno confrontato le sue prestazioni con modelli addestrati con SFT e RLVR (utilizzando l’algoritmo GRPO comune in modelli simili). DeepSeek-R1) in quattro criteri matematici di livello competitivo. Il modello addestrato da SRL ha ottenuto un significativo miglioramento delle prestazioni del 3,0% in media rispetto ad altri metodi.

Il team ha ampliato la SRL per includere l’ingegneria del software degli agenti, un’area critica per l’automazione aziendale. Hanno sviluppato un modello specifico per la codifica, Qwen2.5-Encoder-7B-IstruzioneCirca 5.000 traiettorie esperte di agenti che interagiscono con un ambiente di codifica. Il modello addestrato con SRL è stato confrontato con il modello di base originale e SWE-Gym-7B, una linea di base robusta ottimizzata con SFT. SRL ha raggiunto un tasso di risoluzione delle attività del 14,8%, che rappresenta un miglioramento relativo del 74% rispetto al modello basato su SFT. Ciò dimostra la capacità di SRL di formare agenti IA più abili per compiti di programmazione complessi e reali.

Un nuovo standard per l’IA ad alto rischio?

I risultati più importanti dell’articolo sono arrivati ​​dalla combinazione dei metodi: prima utilizzando l’SRL per insegnare il ragionamento di base, poi utilizzando l’RLVR per migliorare tale abilità. Nei loro esperimenti, i ricercatori hanno osservato un aumento medio del 3,7% quando hanno utilizzato la pre-formazione SRL e hanno implementato la post-formazione RLVR, dimostrando una potente strategia di apprendimento del curriculum.

Ciò solleva la questione se questo potrebbe diventare un nuovo progetto per la creazione di un’intelligenza artificiale specializzata.

"Consideriamo la SRL come una base solida," disse Hsu. "In un certo senso, SRL fornisce un curriculum che ci insegna a pensare e ad agire passo dopo passo prima di migliorare tali comportamenti con l’apprendimento di rinforzo basato sui risultati. Questo approccio SRL-first non solo stabilizza la successiva fase RL, ma rende anche il ragionamento più interpretabile e generalizzabile; Questo è fondamentale per le applicazioni ad alto rischio."

Guardando al futuro, Hsu riconosce che il ridimensionamento di questa pipeline deve ancora affrontare sfide, in particolare i costi elevati e la complessità dell’RLVR end-to-end per le attività intermedie. Ma è ottimista riguardo al percorso da seguire. "Sebbene i percorsi di esperti di alta qualità rimangano importanti," è giunto alla seguente conclusione: "Riteniamo che il prossimo grande passo in avanti verrà dall’automazione della creazione e del filtraggio, sfruttando potenti modelli di insegnanti e persino modelli di studenti auto-miglioranti per portare nuovi dati in primo piano."

Collegamento alla fonte