Il presupposto prevalente nello sviluppo dell’intelligenza artificiale è semplice: modelli più grandi addestrati con più dati producono risultati migliori. L’ultima versione di Nvidia sfida direttamente questo presupposto sulle dimensioni e la ricetta di formazione alla base potrebbe essere più importante per i team di intelligenza artificiale aziendale rispetto al modello stesso. Linea post-allenamento Cascade RL del modello openweight, Dettagliato nella relazione tecnica di NvidiaOffre un modello ripetibile per i team aziendali che creano sistemi di ragionamento specifici del dominio senza formazione da zero.

Nemotron-Cascade 2 Si tratta di un modello 30D Mixture of Experts (MoE) a peso aperto che abilita solo parametri 3D al momento dell’inferenza. Nonostante le sue dimensioni compatte, ha ottenuto prestazioni da medaglia d’oro in tre delle competizioni più impegnative al mondo: le Olimpiadi internazionali di matematica (IMO) del 2025, le Olimpiadi internazionali di informatica (IOI) e le finali mondiali dell’ICPC. È il secondo modello aperto a raggiungere questo livello dopo DeepSeek-V3.2-Speciale, un modello con 20 volte più parametri.

Perché il post-formazione sta diventando un vero vantaggio competitivo

Pre-addestrare da zero un modello linguistico di grandi dimensioni è estremamente costoso; nell’ordine di decine o forse centinaia di milioni di dollari per i modelli di frontiera. Nemotron-Cascade 2 parte dallo stesso modello base dell’attuale Nemotron-3-Nano di Nvidia; ma secondo il rapporto tecnico di Nvidia, supera quel modello in quasi tutti i benchmark, e in molti casi supera il Nemotron-3-Super di Nvidia, un modello con quattro volte i parametri attivi. La differenza sta tutta nella ricetta post-allenamento.

Questa è l’intuizione strategica per i team aziendali: non è necessariamente necessario un modello base più grande o più costoso. Potresti aver bisogno di una migliore pipeline di formazione oltre a quella che già possiedi. Cascade RL e MOPD rappresentano un approccio specifico e riproducibile a questo problema.

Cascade RL spiegato: formazione sequenziale sul campo che impedisce l’oblio catastrofico

L’apprendimento per rinforzo (RL) è diventato la tecnica dominante per insegnare il ragionamento agli LLM. La sfida è che l’addestramento di un modello in più domini contemporaneamente (matematica, codice, esecuzione di istruzioni, attività mediate) spesso causa interferenze. Migliorare le prestazioni in un’area riduce le prestazioni in un’altra. Questo è il problema dell’oblio catastrofico, una sfida da tempo documentata nel machine learning multitasking.

Cascata RL Risolve questo problema addestrando le fasi RL in sequenza, un dominio alla volta, anziché mescolare tutto insieme. Nemotron-Cascade 2 segue una sequenza specifica: prima RL che segue le istruzioni, poi RL multi-dominio (che copre domande STEM, invocazione di strumenti e output strutturato), quindi distillazione basata su policy, quindi RLHF per l’allineamento delle preferenze umane, quindi RL a contesto lungo, quindi RL di codice e infine RL di ingegneria del software.

Secondo il rapporto tecnico di Nvidia, tre caratteristiche rendono pratico questo approccio. In primo luogo, gli stadi RL specifici del dominio sembrano resistenti all’oblio catastrofico; L’addestramento al codice raramente peggiora le prestazioni matematiche e in alcuni casi le migliora effettivamente. In secondo luogo, poiché ogni fase si allena in un singolo dominio, gli iperparametri e il curriculum formativo possono essere adattati alle caratteristiche specifiche di quel dominio, con il risultato di un migliore apprendimento complessivo. In terzo luogo, l’uso dell’informatica è significativamente più efficiente della formazione in ambiti misti, poiché le risposte all’interno di un singolo dominio tendono ad essere simili in termini di durata e costi di convalida.

L’ordine in sé non è fisso; dipende dal comportamento del modello. Secondo il rapporto, il team Nemotron-Cascade 2 ha scoperto che il RL che segue le istruzioni dovrebbe venire prima (perché potrebbe entrare in conflitto con la conformità alle preferenze umane, che può essere corretta in seguito), mentre il codice RL e l’ingegneria del software RL funzionano meglio come fasi finali.

Per i team aziendali, l’implicazione è chiara: se si applica RL per addestrare un modello su più funzionalità, addestrarli in sequenza in un’attenta sequenza può produrre risultati migliori rispetto al tentativo di addestrare tutto in una volta.

MOPD: Riproporre i propri punti di controllo educativi come insegnanti

Anche con un attento ordinamento sequenziale, una certa deriva delle prestazioni è inevitabile poiché il modello attraversa molte fasi RL. La soluzione di Nvidia è questa: Distillazione guidata da policy multidominio (MOPD) – una tecnica aggiunta a metà della linea Cascade RL per riequilibrare le abilità.

L’approccio funziona in questo modo: man mano che il modello attraversa diverse fasi RL, alcuni checkpoint intermedi costituiranno la versione con le migliori prestazioni per determinate aree. Il checkpoint di matematica potrebbe essere il più forte dopo il PFT; Il punto di controllo che segue le istruzioni potrebbe essere il più forte dopo IF-RL. MOPD seleziona il miglior punto di controllo intermedio per ciascuna area e lo utilizza come punto di controllo. "Insegnante" ritrasformando le informazioni nel modello studentesco.

Fondamentalmente, questi insegnanti non sono modelli esterni. Provengono dallo stesso lavoro educativo e condividono lo stesso tokenizzatore e la stessa architettura. Ciò elimina i problemi di incompatibilità della distribuzione che sorgono quando si distilla da una famiglia di modelli completamente diversa.

Secondo il white paper di Nvidia, MOPD opera a livello di token piuttosto che a livello di sequenza, rendendolo significativamente più efficiente di RL con ricompense basate sui risultati (GRPO ecc.). Il team di Nvidia ha riferito nel benchmark matematico AIME 2025 che MOPD ha migliorato le prestazioni a livello di insegnante con 30 passaggi di ottimizzazione, mentre il GRPO standard (Group Relative Policy Optimization) richiedeva più passaggi per ottenere un punteggio inferiore. Nel benchmark ArenaHard per l’allineamento delle preferenze umane, il MOPD ha raggiunto 85,5 su suggerimenti difficili in 52 passaggi, rispetto a 80,7 di RLHF in 160 passaggi.

Grafico comparativo: dominante nel giudizio, onesto nel compromesso

I risultati di confronti intensivi di ragionamento sono sorprendenti. Aprire LiveCodeBench v6Nemotron-Cascade 2, un benchmark di codifica con problemi provenienti da piattaforme di programmazione concorrenti, ha ottenuto un punteggio di 87,2, superando Qwen3.5-35B-A3B (74,6), Qwen3.5-397B-A17B (83,6) e persino Kimi-K2.5-1T (85,0). Aprire HMT febbraio 2025Questo modello, che è un duro punto di riferimento per le competizioni matematiche, ottiene 94,6 punti, testa a testa con modelli molte volte più grandi. Aprire ArenaHard v2 È molto più avanti rispetto ai suoi concorrenti nella sua categoria, raggiungendo 83,5 nella qualità di allineamento. Quando il ragionamento integrato nello strumento è abilitato, le prestazioni di AIME 2025 salgono a 98,6. Tutti i punteggi dei benchmark sono riportati da Nvidia e non sono stati verificati in modo indipendente.

La relazione tecnica è schietta anche riguardo ai punti deboli. Il modello ha prestazioni inferiori a Qwen3.5-35B-A3B su benchmark ad alta intensità di informazioni come MMLU-Pro (79,8 contro 85,3) e GPQA-Diamond (76,1 contro 84,2), nonché su diversi benchmark intermedi come BFCL v4 e τ²-Bench. Gli autori affermano chiaramente che negli studi futuri sono necessari una maggiore formazione preliminare ad alta intensità di conoscenza e RL mediato.

Questa onestà è importante per i praticanti. Il modello è ottimizzato per il ragionamento approfondito e il seguito delle istruzioni, non per il recupero di informazioni generali o interazioni complesse tra più agenti. Piuttosto che presumere una superiorità generale, i team dovrebbero valutare in base ai loro casi d’uso specifici.

Cosa possono imparare i team di intelligenza artificiale aziendale da questa ricetta

Diversi modelli di progettazione presenti in questo studio sono direttamente applicabili agli sforzi aziendali post-formazione. L’ordinamento sequenziale dei domini in Cascade RL significa che i team possono aggiungere nuove funzionalità senza ricostruire l’intera linea di produzione; Questa è una funzionalità fondamentale per le organizzazioni che hanno bisogno di iterare rapidamente. L’approccio del MOPD di utilizzare punti di controllo intermedi come insegnanti specifici del dominio elimina la necessità di costosi modelli di insegnanti esterni; i team possono distillare le proprie istantanee con le migliori prestazioni.

Anche l’impostazione della formazione è degna di nota: Cascade RL utilizza GRPO con una rigorosa formazione sulle politiche e nessuna penalità KL tramite l’open source Nvidia Archivio Nemo-RL. Per il codice RL, la pipeline ha utilizzato solo 3.500 problemi complessi e filtrati.

Il quadro generale: la densità di intelligenza come principio di progettazione

Nemotron-Cascade 2 fa parte di una tendenza più ampia "intensità dell’intelligenza" — estrazione della capacità massima per parametro attivo. I modelli MoE di DeepSeek, le varianti A3B di Qwen e ora la serie Cascade di Nvidia puntano tutti a un futuro in cui i modelli di ragionamento più capaci non saranno necessariamente i migliori.

Questo è molto importante per la distribuzione aziendale. Un modello con parametri abilitati al 3D può essere fornito a una frazione del costo e della latenza di un modello 70D denso. I risultati di Nvidia mostrano che le tecniche post-formazione come Cascade RL e MOPD possono colmare il divario prestazionale in aree mirate e offrire alle organizzazioni un modo per sfruttare potenti capacità di ragionamento senza costi infrastrutturali a livello di confine.

La questione aperta è quanto sia generalizzabile questo approccio. Cascade RL funziona bene in domini con premi verificabili; La matematica ha risposte corrette, il codice ha casi di test, il tracciamento delle istruzioni ha controlli basati su regole. Estendere questo approccio a compiti organizzativi più aperti in cui la verifica è incerta rimane una sfida di ricerca attiva. Per i team che creano sistemi che richiedono un ragionamento approfondito su questioni strutturali come la modellazione finanziaria, il calcolo scientifico, l’ingegneria del software, l’analisi di compatibilità, ecc., il white paper di Nvidia offre una delle metodologie post-formazione più dettagliate pubblicate fino ad oggi.

Collegamento alla fonte