I ricercatori del Massachusetts Institute of Technology (MIT) stanno riscontrando un rinnovato interesse per lo sviluppo e lo sviluppo. fonte aperta Una tecnica che consente ai modelli linguistici di grandi dimensioni (LLM), come ChatGPT e quelli che sono alla base dei più moderni chatbot basati su intelligenza artificiale, di migliorarsi producendo dati sintetici che possono essere perfezionati.
La tecnica, nota come SEAL (Self-Adapting LLMs), è stata descritta per la prima volta in un articolo pubblicato a giugno e all’epoca coperto da VentureBeat.
Significativamente ampliato e Una versione aggiornata dell’articolo è stata pubblicata il mese scorsoinsieme Codice open source pubblicato su Github (sotto una licenza MIT, che ne consente l’uso commerciale e istituzionale) e sta facendo nuove ondate questa settimana tra gli utenti esperti di intelligenza artificiale sul social network X.
SEAL consente agli LLM di creare e implementare autonomamente le proprie strategie di perfezionamento. A differenza dei modelli tradizionali che si basano su dati esterni fissi e pipeline di ottimizzazione create dall’uomo, SEAL consente ai modelli di evolversi generando i propri dati di addestramento sintetici e le corrispondenti direttive di ottimizzazione.
Lo sviluppo è stato portato avanti da un team dell’Improbable Artificial Intelligence Laboratory del MIT, tra cui Adam Zweiger, Jyothish Pari, Han Guo, Ekin Akyürek, Yoon Kim e Pulkit Agrawal. La loro ricerca è stata recentemente presentata alla 39a Conferenza sui sistemi di elaborazione delle informazioni neurali (NeurIPS 2025).
Background: da “oltre l’intelligenza artificiale statica” ai sistemi autoadattativi
All’inizio di quest’anno, VentureBeat ha segnalato per la prima volta SEAL come un framework in fase iniziale che consente ai modelli linguistici di generare e addestrare i propri dati sintetici; Questo è un potenziale rimedio alla stagnazione dei modelli pre-addestrati una volta implementati.
In questa fase, SEAL è concepito come una prova di concetto che consente agli agenti di intelligenza artificiale aziendale di apprendere continuamente in ambienti dinamici senza riqualificazione manuale.
Da allora la ricerca ha fatto notevoli progressi. La nuova versione estende il quadro precedente mostrando che la capacità di autoadattamento di SEAL si adatta alle dimensioni del modello, integra in modo più efficace l’apprendimento per rinforzo per ridurre l’oblio catastrofico e formalizza la struttura a doppio ciclo di SEAL (messa a punto supervisionata internamente e ottimizzazione del rinforzo esterno) per la ripetibilità.
Il documento aggiornato fornisce inoltre valutazioni su diversi formati di routing, una migliore stabilità durante i cicli di apprendimento e una discussione sulle sfide pratiche di implementazione al momento dell’inferenza.
Affrontare i limiti dei modelli statici
Sebbene gli LLM abbiano dimostrato notevoli capacità nel creare e comprendere il testo, il loro adattamento a nuovi compiti o informazioni è spesso manuale, fragile o dipendente dal contesto.
SEAL sfida questo status quo dotando i modelli di ciò che gli autori chiamano “auto-organizzazione”, la capacità di generare output in linguaggio naturale che specificano come il modello dovrebbe aggiornare i suoi pesi.
Queste autoregolamentazioni possono assumere la forma di informazioni riformulate, inferenze logiche o configurazioni di strumenti per lo sviluppo e la formazione. Una volta creato il modello, si perfeziona in base a queste modifiche. Il processo è guidato dall’apprendimento per rinforzo, in cui il segnale di ricompensa deriva dal miglioramento delle prestazioni in un’attività secondaria.
Il design imita il modo in cui gli studenti potrebbero riformulare o riorganizzare i materiali di studio per interiorizzare meglio le informazioni. La ristrutturazione delle informazioni prima che vengano assimilate offre un vantaggio significativo rispetto ai modelli che consumano passivamente i nuovi dati “così come sono”.
Prestazioni in tutte le attività
SEAL è stato testato in due aree principali: consolidamento della conoscenza e apprendimento in più fasi.
In un contesto di fusione della conoscenza, i ricercatori hanno valutato quanto bene un modello potesse interiorizzare nuovi contenuti fattuali da passaggi simili a quelli nel set di dati SQuAD, un set di dati di riferimento sulla comprensione della lettura di oltre 100.000 coppie di domande-risposte di crowdsourcing basate su articoli di Wikipedia introdotti dalla Stanford University nel 2016 (Rajpurkar et al., 2016).
Invece di modificare direttamente il testo del passaggio, il modello ha prodotto inferenze sintetiche del brano e poi li abbiamo perfezionati.
Dopo due cicli di apprendimento per rinforzo, il modello ha migliorato la precisione delle risposte alle domande dal 33,5% al 47,0% nella versione senza contesto di SQuAD, superando i risultati ottenuti utilizzando i dati sintetici generati da GPT-4.1.
SEAL in un ambiente di apprendimento in pochi passaggi è stato valutato utilizzando un sottoinsieme del benchmark ARC, in cui le attività richiedono un ragionamento basato solo su pochi esempi. Qui il SEAL ha creato delle autoregolamentazioni specificando miglioramenti dei dati e iperparametri.
Dopo l’apprendimento per rinforzo, Il tasso di successo nel risolvere correttamente compiti estesi è aumentato dal 20% al 72,5% utilizzando le automodifiche create senza apprendimento per rinforzo. I modelli basati esclusivamente sull’apprendimento contestuale senza alcun adattamento hanno ottenuto un punteggio pari allo 0%.
Quadro tecnico
SEAL opera utilizzando una struttura a due circuiti: un ciclo interno esegue una messa a punto supervisionata basata sull’autoregolamentazione, mentre un ciclo esterno utilizza l’apprendimento per rinforzo per affinare la politica che genera queste autoregolamentazioni.
L’algoritmo di apprendimento per rinforzo utilizzato si basa su ReSTEM, che combina il campionamento con la clonazione del comportamento filtrato. Le autoregolazioni vengono rafforzate solo durante l’allenamento, portando a miglioramenti delle prestazioni. Questo approccio insegna efficacemente al modello quali tipi di accordi sono più vantaggiosi per l’apprendimento.
Per motivi di efficienza, SEAL consente esperimenti rapidi e adattamenti a basso costo applicando la messa a punto basata su LoRA anziché aggiornamenti completi dei parametri.
Punti di forza e limiti
I ricercatori notano che SEAL può produrre dati di addestramento di alta utilità con una supervisione minima e surclassa anche modelli esterni di grandi dimensioni come GPT-4.1 su determinati compiti.
Mostrano inoltre che SEAL si generalizza oltre la sua configurazione originale: continua a funzionare bene quando si passa da aggiornamenti a passaggio singolo a scenari di pre-addestramento continuo multi-documento.
Tuttavia, il quadro non è illimitato. Un problema è l’oblio catastrofico, in cui gli aggiornamenti per incorporare nuove informazioni possono ridurre le prestazioni su attività apprese in precedenza.
In risposta a questa preoccupazione, il coautore Jyo Pari ha dichiarato via e-mail a VentureBeat che l’apprendimento per rinforzo (RL) riduce l’oblio in modo più efficace rispetto al tuning fine supervisionato standard (SFT), citando un recente articolo sull’argomento. La combinazione di queste informazioni con il SEAL potrebbe portare a nuove variabili in cui il SEAL apprende non solo i dati di addestramento ma anche le funzioni di ricompensa, ha aggiunto.
Un’altra sfida è l’overhead computazionale: la valutazione di ciascuna auto-organizzazione richiede messa a punto e test delle prestazioni; l’operazione potrebbe richiedere 30-45 secondi per modifica; questo è significativamente maggiore rispetto ai compiti di apprendimento per rinforzo standard.
Come spiega Jyo, “l’addestramento SEAL non è banale perché richiede 2 cicli di ottimizzazione, uno per RL esterno e uno per SFT interno. Anche l’aggiornamento dei pesi del modello al momento dell’inferenza richiederà una nuova infrastruttura di sistema”. Ha sottolineato la necessità di ricerche future sui sistemi di consegna come mezzo fondamentale per rendere pratico il SEAL.
Inoltre, l’attuale progettazione di SEAL presuppone l’esistenza di compiti accoppiati e risposte di riferimento per ciascun contesto, limitandone l’applicabilità diretta a corpora senza etichetta. Tuttavia, Jyo ha spiegato che finché esiste un compito secondario con una ricompensa calcolabile, il SEAL può essere addestrato ad adattarsi di conseguenza, anche in aree critiche per la sicurezza. In linea di principio, un modello addestrato ai SEAL potrebbe imparare a evitare l’addestramento su input dannosi o dannosi se guidato dal segnale di ricompensa appropriato.
Reazioni dalla comunità dell’intelligenza artificiale
La comunità di ricerca e costruttori di intelligenza artificiale ha reagito al documento SEAL sia con entusiasmo che con speculazioni. Su X, ex Twitter, diversi importanti account focalizzati sull’intelligenza artificiale hanno valutato il potenziale impatto.
Utente @VraserxAutodefinitosi educatore e appassionato di intelligenza artificiale, ha definito SEAL “la nascita dell’intelligenza artificiale ad autoapprendimento continuo” e ha previsto che modelli come GPT-6 di OpenAI potrebbero adottare un’architettura simile.
Nelle loro parole, i SEAL rappresentano “la fine dell’era dei pesi congelati”, sistemi pionieristici che si evolvono man mano che cambia il mondo che li circonda.
Hanno evidenziato la capacità del SEAL di formare ricordi duraturi, riparare informazioni e apprendere dai dati in tempo reale, e hanno paragonato questo a un passo fondamentale verso modelli che non solo utilizzano le informazioni ma le assimilano.
Nel frattempo, @alex_prompterIl co-fondatore di una startup di marketing basata sull’intelligenza artificiale ha concepito SEAL come un salto verso modelli che si stanno letteralmente riscrivendo. “Il MIT ha sviluppato un’intelligenza artificiale in grado di riscrivere il proprio codice per essere più intelligente”, ha scritto. Il documento cita i risultati chiave: aumento del 40% del ricordo effettivo e prestazioni migliori rispetto a GPT-4.1 utilizzando dati autogenerati – ha descritto i risultati come la prova che “il perfezionamento di se stessi da parte dei maestri non è più fantascienza”.
Questo entusiasmo riflette un appetito più ampio nel campo dell’intelligenza artificiale per modelli che possono evolversi senza costante riqualificazione o supervisione umana, soprattutto in ambiti in rapida evoluzione o casi d’uso personalizzati.
Direzioni future e domande aperte
In risposta alle domande sull’adattamento di SEAL a modelli e missioni più grandi, Jyo ha indicato gli esperimenti (Appendice B.7) che mostrano che le capacità di autoadattamento aumentano con l’aumentare delle dimensioni del modello. Ha paragonato questo al fatto che gli studenti migliorano le loro tecniche di studio nel tempo; i modelli più grandi sono più bravi a creare utili auto-arrangiamenti.
Quando gli è stato chiesto se SEAL si sarebbe generalizzato a nuovi stili di stecca, lo ha confermato facendo riferimento alla Tabella 10 nell’articolo. Ma ha riconosciuto che il team deve ancora testare la capacità del SEAL di effettuare trasferimenti tra domini o architetture di modelli completamente nuovi.
“SEAL è uno studio iniziale che mostra le possibilità”, ha affermato. “Ma richiede molti più test.” Ha aggiunto che la generalizzazione potrebbe migliorare formando i SEAL su una più ampia distribuzione dei compiti.
È interessante notare che il team ha scoperto che già pochi passaggi dell’apprendimento per rinforzo portavano a miglioramenti misurabili delle prestazioni. “Questo è entusiasmante”, ha affermato Jyo, “perché significa che possiamo ottenere miglioramenti ancora maggiori con più computer”. Ha suggerito che gli esperimenti futuri potrebbero esplorare metodi di apprendimento di rinforzo più avanzati oltre ReSTEM, come il Group Relative Policy Optimization (GRPO).
Verso modelli più adattivi e di agenzia
SEAL rappresenta un passo verso modelli che possono evolversi autonomamente nel tempo, sia integrando nuove conoscenze, sia ristrutturando le modalità di apprendimento. Gli autori prevedono estensioni future in cui SEAL potrebbe assistere nell’auto-preformazione, nell’apprendimento continuo e nello sviluppo di sistemi di agenti che interagiscono e si adattano progressivamente ad ambienti in evoluzione.
In tali ambienti, un modello può utilizzare SEAL per sintetizzare gli aggiornamenti del peso dopo ogni interazione, interiorizzando gradualmente comportamenti o intuizioni. Ciò può ridurre la necessità di controlli ripetuti e di interventi manuali, soprattutto in aree specializzate o con vincoli di dati.
Man mano che il testo web pubblico diventa saturo e l’ulteriore ridimensionamento dei LLM viene ostacolato dalla disponibilità dei dati, approcci autodiretti come SEAL possono svolgere un ruolo fondamentale nello spingere i confini di ciò che i LLM possono ottenere.
È possibile accedere al progetto SEAL, incluso il codice e altra documentazione, all’indirizzo: https://jyopari.github.io/posts/seal















