Quando le aziende perfezionano i LLM per nuovi ruoli, corrono il rischio di interrompere tutto ciò che i modelli già conoscono. Ciò costringe le aziende a utilizzare modelli separati per ciascuna competenza.

I ricercatori del MIT, dell’Improbable AI Laboratory e dell’ETH di Zurigo hanno sviluppato una nuova tecnica che consente a grandi modelli linguistici di apprendere nuove abilità e conoscenze senza dimenticare le loro abilità passate.

La loro tecnica si chiama messa a punto dell’autodistillazione (SDFT) sfrutta le capacità di apprendimento nel contesto inerenti ai moderni LLM, consentendo ai modelli di apprendere direttamente dalle dimostrazioni e dai propri esperimenti. Gli esperimenti mostrano che SDFT supera costantemente le tradizionali prestazioni di regolazione fine supervisionata (SFT) affrontando i limiti degli algoritmi di apprendimento per rinforzo.

Per le applicazioni aziendali, questo metodo consente a un singolo modello di accumulare più competenze nel tempo senza subire un degrado delle prestazioni nelle attività precedenti. Ciò offre un potenziale percorso per creare agenti IA in grado di adattarsi ad ambienti aziendali dinamici, acquisendo nuove conoscenze e competenze specializzate secondo necessità senza richiedere costosi cicli di riqualificazione o perdere capacità di ragionamento generale.

Difficoltà di apprendimento continuo

Una volta addestrato e distribuito, un LLM rimane statico. Non aggiorna i suoi parametri per acquisire nuove competenze, interiorizzare nuove conoscenze o trarre vantaggio dalle esperienze. Per creare un’intelligenza artificiale veramente adattiva, l’industria deve capire "apprendimento continuo," Permette ai sistemi di accumulare conoscenza proprio come fanno le persone nel corso della loro carriera.

Il modo più efficace per apprendere i modelli è "apprendimento legato alle politiche. In questo approccio, il modello apprende dai dati che produce, permettendogli di correggere i propri errori e processi di ragionamento. Questo è l’opposto dell’apprendimento semplicemente imitando set di dati statici. Modelli senza policy-based learning "disastro, non dimenticare," È un fenomeno in cui l’apprendimento di un nuovo compito fa sì che il modello perda la conoscenza passata e la capacità di eseguire compiti precedenti.

Ma l’apprendimento basato sulle politiche spesso richiede: apprendimento per rinforzo (RL) dipende da una funzione di ricompensa esplicita per valutare gli output del modello. Funziona bene per problemi con conseguenze chiare, come la matematica e la codifica. Ma in molti scenari aziendali reali (ad esempio, scrivere un brief legale o riassumere una riunione), è difficile o impossibile definire una funzione matematica di ricompensa.

I metodi RL spesso falliscono anche quando si cerca di insegnare a un modello informazioni completamente nuove, come un protocollo aziendale specifico o una nuova linea di prodotti. Come ha detto a VentureBeat Idan Shenfeld, dottorando al MIT e coautore dell’articolo: "Non importa quanto si sforzi il modello di base, non può produrre risposte corrette a un argomento sul quale non ha alcuna conoscenza." quindi non riceve mai un segnale positivo da cui imparare.

L’alternativa standard è il fine tuning supervisionato (SFT), in cui il modello viene addestrato su un set di dati fisso di rappresentazioni di esperti. Mentre SFT fornisce una chiara verità fondamentale, per sua natura "fuori dalla politica." Poiché il modello imita semplicemente i dati anziché apprendere dai propri tentativi, spesso non riesce a generalizzare a campioni fuori distribuzione e soffre di un dimenticatoio in gran parte catastrofico.

SDFT mira a colmare questa lacuna: consente i vantaggi dell’apprendimento basato sulle politiche utilizzando solo rappresentazioni preregistrate, senza la necessità di una funzione di ricompensa.

Come funziona l’SDFT?

SDFT risolve questo problema utilizzando: "distillazione," un processo in cui lo studente modello impara a imitare l’insegnante. L’intuizione dei ricercatori è stata quella di utilizzare il metodo stesso del modello. "apprendimento in contesto" (ICL) per creare un ciclo di feedback in un singolo modello.

L’apprendimento in contesto è il fenomeno in cui assegni al LLM un compito difficile e fornisci una o più dimostrazioni di come sono stati risolti problemi simili. Gli LLM più avanzati sono progettati per risolvere nuovi problemi con le istanze ICL senza alcun aggiornamento dei parametri.

Durante il ciclo di formazione, SDFT utilizza il modello in due ruoli.

Insegnante: Una versione congelata del modello viene fornita alla query insieme alle rappresentazioni degli esperti. Utilizzando ICL, l’insegnante estrae la risposta corretta e il ragionamento necessario per arrivarci.

Studente: Questa versione vede solo la query e simula uno scenario di distribuzione reale in cui la chiave di risposta non è disponibile.

Quando lo studente produce una risposta, l’insegnante, che ha accesso a dimostrazioni di esperti, fornisce un feedback. Lo studente quindi aggiorna i suoi parametri per essere più vicini alla distribuzione dell’insegnante.

Questo processo combina elementi di SFT e RL, creando di fatto un ciclo di apprendimento basato sulle politiche. Il controllo deriva dall’interazione e dagli output del modello stesso, non da un set di dati statico. Consente al modello di correggere le proprie traiettorie di giudizio senza richiedere un segnale di ricompensa esterno. Questo processo funziona anche per nuove informazioni che RL perderebbe.

SDFT in azione

Per convalidare l’approccio, i ricercatori hanno testato l’SDFT utilizzando una ponderazione esplicita. Modello Qwen 2.5 Si basa su tre complesse competenze a livello aziendale: risposta a domande scientifiche, utilizzo di strumenti software e ragionamento medico.

I risultati hanno mostrato che SDFT ha appreso nuovi compiti in modo più efficace rispetto ai metodi standard. Nel benchmark Science Q&A, il modello SDFT ha raggiunto un’accuratezza del 70,2% rispetto al 66,2% dell’approccio SFT standard.

Più importante per l’adozione istituzionale è l’impatto sull’oblio catastrofico. La capacità di rispondere a domande generali (come la logica o le discipline umanistiche) è crollata quando il modello PFT standard ha imparato il compito scientifico. Al contrario, il modello SDFT porta avanti anche la sua missione scientifica "Missioni precedenti" Il punteggio è rimasto stabile al 64,5%. Questa stabilità suggerisce che le aziende possono specializzare modelli per dipartimenti specifici (ad esempio, risorse umane o legale) senza compromettere il buon senso o le capacità di giudizio di base del modello.

Il team ha inoltre creato un set di dati di informazioni fittizie simulando uno scenario di inserimento di informazioni. "2025 Disastri naturali" insegnare al modello nuovi fatti. Hanno testato il modello su domande di ragionamento indiretto: "Quali paesi avranno probabilmente bisogno di assistenza umanitaria a causa delle inondazioni nel 2025?"

La PFT standard ha prodotto un modello che memorizzava i fatti ma aveva difficoltà a usarli in scenari di ragionamento. Il modello SDFT, che ha interiorizzato la logica durante la formazione, ha ottenuto il 98% sulle stesse domande.

Infine, i ricercatori hanno condotto un esperimento di apprendimento sequenziale addestrando il modello sulla scienza, sull’uso degli strumenti e sui compiti medici uno dopo l’altro. Mentre le prestazioni del modello standard oscillavano, perdendo le competenze precedenti man mano che ne apprendeva di nuove, il modello SDFT accumulava con successo tutte e tre le competenze senza regressione.

Questa funzionalità risolve un problema significativo per le aziende attualmente in amministrazione controllata. "zoo modello" adattatori separati per compiti diversi.

"Offriamo la possibilità di avere un solo modello per tutte le esigenze dell’azienda," Shenfeld ha detto. Questo consolidamento "può portare ad una significativa riduzione dei costi di estrazione" perché le organizzazioni non hanno bisogno di ospitare più modelli contemporaneamente.

Limitazioni e disponibilità dell’SDFT

Il codice SDFT è disponibile su GitHub e pronto per essere integrato nei flussi di lavoro di formazione del modello esistenti.

"La pipeline SDFT è più simile alla pipeline RL in quanto richiede la generazione di risposte online durante l’addestramento." Shenfeld ha detto. Stanno lavorando con Hugging Face per integrare SDFT in Hugging Face. Formazione sul rinforzo del trasformatore Ha notato che è già aperta una richiesta pull per gli sviluppatori che desiderano testare l’integrazione della libreria (TRL).

I compromessi pratici per i team che prendono in considerazione l’SDFT dipendono dalle dimensioni del modello e dal calcolo. Questa tecnica richiede modelli con apprendimento nel contesto sufficientemente forti da agire come insegnanti di se stessi; le architetture più recenti come Qwen 3 hanno attualmente circa 4 miliardi di parametri, ma Shenfeld prevede che il modello da 1 miliardo di parametri funzionerà presto. Richiede circa 2,5 volte il calcolo del fine tuning standard, ma è più adatto per le organizzazioni che necessitano di un unico modello per accumulare più competenze nel tempo, soprattutto in ambiti in cui è difficile o impossibile definire una funzione di ricompensa per l’apprendimento per rinforzo.

Sebbene efficace, il metodo presenta dei compromessi computazionali. L’SDFT è circa quattro volte più lento del fine tuning standard e richiede 2,5 volte più potenza di calcolo (FLOP) perché il modello deve generare attivamente le proprie risposte ("presentazioni") per confrontarsi con il docente durante la formazione. Ma poiché il modello conserva meglio le informazioni, le organizzazioni possono evitare i costosi processi di riqualificazione in più fasi spesso necessari per riparare modelli che hanno subito un catastrofico oblio, osservano i ricercatori.

La tecnica si basa anche sul fatto che il modello base sia abbastanza grande da beneficiare dell’apprendimento contestuale. L’articolo rileva che i modelli più piccoli (ad esempio 3 miliardi di parametri) inizialmente hanno difficoltà perché mancano dei requisiti necessari. "intelligenza" agire come insegnante di se stessi.

Ma il rapido sviluppo di modelli più piccoli sta cambiando questa dinamica, ha detto Shenfeld. "I modelli 3D Qwen 2.5 erano molto deboli, ma in alcuni esperimenti che abbiamo fatto ora, abbiamo scoperto che il modello Qwen 3 4D è abbastanza forte." ha detto. "Vedo un futuro in cui anche i modelli 1D avranno proprietà ICL sufficientemente buone da supportare SDFT."

In definitiva, l’obiettivo è quello di andare oltre le istantanee statiche verso sistemi che si evolvono attraverso l’uso.

"L’apprendimento permanente, insieme alla capacità di estrarre un segnale di apprendimento dalle interazioni non strutturate degli utenti, si tradurrà in modelli che persistono e continuano ad evolversi nel tempo”, ha affermato Shenfeld.

“Consideriamo il fatto che la maggior parte dell’informatica in tutto il mondo è destinata all’inferenza piuttosto che alla formazione. Dobbiamo trovare il modo di sfruttare questa elaborazione per migliorare i nostri modelli."

Collegamento alla fonte