I ricercatori di Nvidia hanno sviluppato una nuova tecnica che capovolge il copione su come i modelli linguistici di grandi dimensioni (LLM) imparano a ragionare.

Detto metodo apprendimento di rinforzo pre-formazione (RLP) integra RL nella fase di formazione iniziale anziché salvarla per ultima.

Questo approccio incoraggia il modello a “pensare con la propria testa prima di prevedere cosa accadrà dopo, insegnando così il comportamento di pensiero indipendente nelle prime fasi della pre-formazione”. affermano i ricercatori nel loro articolo.

Imparando a ragionare su testo in chiaro senza bisogno di validatori esterni, I modelli addestrati con RLP mostrano miglioramenti significativi nell’apprendimento di compiti di ragionamento complessi Indica un futuro dell’intelligenza artificiale più capace e adattabile alle attività del mondo reale.

Tipico ciclo di studi LLM

In genere, i modelli linguistici di grandi dimensioni vengono prima addestrati su grandi quantità di testo. "previsione della prossima moneta" L’obiettivo è quello in cui viene data loro una stringa di testo e viene chiesto loro di prevedere continuamente quale sarà la parola (o simbolo) successiva. In questa fase imparano la grammatica, i fatti e le relazioni di base.

Nella fase successiva all’addestramento, i modelli spesso apprendono abilità di ragionamento complesse come: catena di pensiero (CoT) è il luogo in cui un modello espone la sua logica passo dopo passo. Questa fase è solitamente la messa a punto controllata (SFT) o apprendimento per rinforzo dal feedback umano (RLHF) richiede set di dati appositamente selezionati.

Gli autori dell’articolo sostengono che questo processo sequenziale non corrisponde alla cognizione umana, che “non è un processo simbolico lineare, ma piuttosto un’integrazione parallela di input con conoscenza precedente”. L’assenza di questo meccanismo negli attuali metodi di pre-formazione ostacola fin dall’inizio la capacità del modello di sviluppare un ragionamento profondo.

Come funziona la preformazione dell’apprendimento per rinforzo?

RLP riformula questo processo trattando la formazione del CoT come un’azione che il modello intraprende prima di prevedere la moneta successiva. Ad ogni passaggio, il modello costruisce prima un interno "Pensiero" o catena di ragionamento. Quindi predice la parola successiva nel testo utilizzando il contesto originale arricchito con nuove riflessioni.

Il modello riceve una ricompensa in base a quanto il suo pensiero migliora l’accuratezza della sua previsione rispetto a una linea di base senza pensiero (previsione pura del token successivo). Questo segnale di ricompensa viene calcolato automaticamente in base alla variazione di probabilità, eliminando la necessità di validatori esterni o dati etichettati dall’uomo.

La ricompensa è positiva solo quando il pensiero generato aiuta il modello a prevedere meglio la moneta successiva. Premiando i pensieri in base alla loro utilità predittiva, RLP insegna efficacemente al modello come pensare in modo utile sugli stessi set di dati di grandi dimensioni e non strutturati utilizzati per il pre-addestramento standard.

Questo ciclo di feedback costante consente al modello di apprendere quando una semplice ipotesi predittiva è sufficiente e quando è necessario un ragionamento più approfondito. Come notano i ricercatori, “RLP è progettato per modellare il pensiero in modelli di base. gratificare solo i pensieri che aiutano in modo misurabile a prevedere il prossimo token.

Tuttavia, questo approccio di base non invalida le fasi successive di messa a punto. Secondo Bryan Catanzaro, vicepresidente della ricerca applicata sul deep learning di Nvidia e coautore dell’articolo, RLP è progettato per integrare questi importanti passaggi, non solo per completarli. "L’RLP non è destinato a sostituire le fasi successive post-formazione come la messa a punto supervisionata o l’apprendimento di rinforzo dal feedback umano." Catanzaro ha detto a Venturebeat. "Queste fasi sono vitali per migliorare il comportamento del modello… In realtà sono progettate per aumentare l’efficacia delle fasi successive dando un vantaggio al modello."

RLP in azione

Negli esperimenti condotti con Qwen3-1.7B E Nemotron-Nano-12BIl team di Nvidia ha testato RLP in una serie di benchmark di ragionamento matematico e scientifico. I risultati lo mostrano I modelli sviluppati con RLP hanno costantemente sovraperformato i loro omologhi formati tradizionalmente, con guadagni particolarmente forti su compiti pesanti di ragionamento.

Per un’organizzazione, questo ragionamento migliorato può tradursi in risultati più affidabili nei flussi di lavoro in più fasi come l’analisi finanziaria o il riepilogo dei documenti legali.

"L’RLP aiuta il modello a interiorizzare uno stile di ragionamento più coerente incoraggiando il modello a pensare prima di fare previsioni durante il pre-addestramento." disse Catanzaro. "Ciò può aiutare a ridurre gli errori logici sottili, soprattutto nei flussi di lavoro lunghi”.

Mentre Catanzaro ha sottolineato che i modelli addestrati per RLP avranno ancora bisogno dei soliti guardrail come livelli di validazione, supervisione umana e controlli di coerenza, ha affermato: “RLP fornisce una base più solida."

Ancora più importante, il composto RLP trae vantaggio piuttosto che scomparire nelle fasi successive di messa a punto (l’oblio catastrofico è un problema comune nella formazione LLM, dove le fasi successive della formazione fanno sì che il modello dimentichi le conoscenze e le abilità precedentemente apprese). Il modello addestrato con RLP ha ottenuto un punteggio complessivo superiore del 7-8% rispetto ai valori di base seguendo lo stesso regime post-allenamento. I ricercatori hanno concluso che l’RLP “stabilisce solide basi di ragionamento che non vengono cancellate dall’allineamento verso il basso ma si uniscono invece dopo l’allenamento”.

L’efficienza della tecnica è una scoperta importante. Nel modello Qwen3-1.7B, l’RLP ha migliorato le prestazioni del 17% rispetto al pre-allenamento continuo standard e ha anche sovraperformato una tecnica simile chiamata Reinforcement Pretraining tramite premi di corrispondenza del prefisso (RPT). Questo vantaggio persisteva anche quando il modello base veniva addestrato con 35 volte più dati per soddisfare il costo computazionale; Ciò ha confermato che i guadagni provenivano dal metodo stesso, non solo da maggiori scambi.

Inoltre, RLP dimostra un’impressionante scalabilità e versatilità estraendo con successo il segnale di giudizio non solo da set di dati selezionati ma anche da dati web di uso generale. Se applicato al modello ibrido Mamba-Transformer Nemotron-Nano-12B, L’RLP ha ottenuto un miglioramento relativo del 35% rispetto ad un livello di base intensamente allenato Utilizzando solo una piccola parte dei dati.

Sebbene questi risultati indichino un modo più efficiente per costruire modelli potenti, Catanzaro inquadra l’innovazione non come una soluzione immediata agli elevati costi dell’istruzione ma come un cambiamento fondamentale nel processo di apprendimento stesso.

"Questa ricerca è entusiasmante perché offre un cambiamento nel modo in cui i modelli assorbono le informazioni durante la pre-formazione, portando a un processo di apprendimento più intelligente." spiegato. "Non sostituisce la formazione preliminare su larga scala, ma offre un altro metodo creativo per costruire i migliori modelli possibili."

Una nuova base per l’educazione all’intelligenza artificiale

In definitiva, l’RLP punta a un futuro in cui il pre-addestramento non sarà più un processo monolitico di previsione della prossima moneta. Invece, i modelli di prossima generazione possono essere costruiti su obiettivi ibridi, creando un’intelligenza artificiale che impara a pensare in modo più solido fin dal primo giorno. Catanzaro offre una potente analogia per inquadrare questo cambiamento:

"La successiva previsione della moneta insegna a un modello come è il mondo; Obiettivi di tipo rinforzo come RLP possono insegnargli come pensare a ciò che vede," ha detto. "La combinazione di questi due obiettivi può aiutare i modelli a promuovere un pensiero più profondo e strutturato molto più precocemente nel processo educativo… Strumenti come RLP possono basarsi su queste basi, rendendo l’apprendimento più attivo, curioso e persino più produttivo."

C’è ancora molto da imparare sulle dinamiche dell’apprendimento per rinforzo nella fase di pre-formazione, ma Catanzaro ha affermato che ciò che sembra chiaro è che “l’introduzione della scoperta nelle prime fasi della formazione apre un nuovo asse di scalabilità, non solo in termini di dimensioni, ma in termini di come i modelli imparano a ragionare”.

Collegamento alla fonte