ricercatori Meta FIERA E Università Nazionale di Singapore ha sviluppato un nuovo quadro di apprendimento per rinforzo per sistemi di intelligenza artificiale auto-miglioranti.
nel nome Auto-gioco in ambienti Corpus (SPICE)Il framework mette due agenti IA l’uno contro l’altro, creando le proprie sfide ed evolvendosi lentamente senza controllo umano.
Sebbene attualmente sia una prova di concetto, questo meccanismo di self-play potrebbe fornire una base per i futuri sistemi di intelligenza artificiale in grado di adattarsi dinamicamente ai loro ambienti, rendendoli più resilienti all’imprevedibilità delle applicazioni del mondo reale.
La sfida dell’intelligenza artificiale che si auto-migliora
L’obiettivo dell’intelligenza artificiale automigliorante è creare sistemi in grado di aumentare le proprie capacità interagendo con l’ambiente.
Un approccio comune è l’apprendimento per rinforzo con ricompense verificabili (RLVR), in cui i modelli vengono premiati per aver fornito risposte corrette ai problemi. Ciò è spesso limitato dalla dipendenza da serie di problemi specificati dall’uomo e dall’ingegneria delle ricompense specifiche del dominio, rendendolo difficile da scalare.
Il self-playing, in cui un modello si evolve competendo con se stesso, è un altro paradigma promettente. Tuttavia, i metodi di self-play esistenti per i modelli linguistici sono generalmente limitati da due fattori critici.
-
FGli errori reali nelle domande e nelle risposte generate si combinano per portare a un ciclo di feedback di allucinazioni.
-
Quando i creatori e i risolutori di problemi hanno una simmetria informativa (cioè condividono la stessa base di conoscenza), non riescono a creare sfide veramente nuove e cadono in schemi ripetitivi.
Come notano i ricercatori nel loro articolo, “Questi fallimenti empirici sistematici suggeriscono che la crescita personale richiede l’interazione con una fonte esterna che fornisce feedback diversificati e verificabili, piuttosto che una pura introspezione a circuito chiuso”.
Come funziona SPICE?
SPICE è una struttura di gioco autonomo in cui un singolo modello agisce in due ruoli diversi.
-
UN. "Sfidante" Crea un curriculum di problemi stimolanti da un ampio corpus di documenti.
-
UN. "Razionale" tenta quindi di risolvere questi problemi senza accedere alla documentazione sorgente.
Questa configurazione rompe la simmetria informativa che limita altri metodi di gioco autonomo, perché il Ragionatore non può accedere ai documenti e alle informazioni che lo Sfidante utilizza per creare i problemi.
Basare le attività su un corpus ampio e diversificato di documenti previene le allucinazioni ancorando domande e risposte al contesto del mondo reale. Questo è importante perché i sistemi di intelligenza artificiale necessitano di fonti di messa a terra esterne per migliorarsi in modo affidabile. Pertanto, i rappresentanti LLM devono imparare non solo dai propri risultati ma anche dalle loro interazioni con le persone e il mondo reale per evitare ulteriori errori.
La dinamica contenziosa tra i due ruoli crea un curriculum automatico.
Lo Sfidante viene ricompensato per aver prodotto problemi diversi e al limite delle capacità del Ragionatore (non troppo facili, ma anche non impossibili).
Il ragionatore viene premiato quando risponde correttamente. Questa interazione simbiotica spinge entrambi gli agenti a esplorare e superare costantemente nuove sfide.
Poiché il sistema utilizza documenti grezzi anziché coppie di domande-risposte predefinite, può generare una varietà di formati di attività, come domande a scelta multipla e in formato libero.
Questa flessibilità consente di applicare SPICE a qualsiasi dominio, eliminando i colli di bottiglia che limitavano i metodi precedenti a domini ristretti come la matematica e il codice. Riduce inoltre la dipendenza da costosi set di dati generati dall’uomo per settori specializzati come l’analisi legale o medica.
SPICE al lavoro
I ricercatori hanno valutato SPICE su diversi modelli di base, tra cui Qwen3-4B-Base e Qwen3-4B-Base. Base ibrida OctoThinker-3B.
Hanno confrontato le sue prestazioni con linee di base come il modello di base senza formazione e il modello Reasoner addestrato con una formazione fissa. "Forte sfidante" (Qwen3-32B-Instruct) e metodi di puro gioco autonomo come R-Zero e Absolute Zero. La valutazione ha coperto un’ampia gamma di criteri matematici e di ragionamento generale.
SPICE ha costantemente sovraperformato la baseline in tutti i modelli, fornendo miglioramenti significativi sia nei compiti matematici che in quelli di ragionamento generale.
I risultati mostrano che le capacità di ragionamento sviluppate attraverso il self-play basato su corpus si trasferiscono ampiamente su diversi modelli grazie al diverso insieme di informazioni esterne che utilizzano.
Una scoperta importante è che la dinamica contraddittoria crea un curriculum automatico efficace. Con il progredire dell’addestramento, lo Sfidante impara a porre problemi sempre più difficili.
In un esperimento, il tasso di successo di Reasoner su una serie fissa di problemi è aumentato dal 55% all’85% nel tempo, dimostrando le sue capacità migliorate.
Nel frattempo, le versioni successive di Challenger sono riuscite a generare domande che hanno ridotto il tasso di superamento del Reasoner in fase iniziale dal 55% al 35%, confermando che entrambi i ruoli si sono co-evoluti con successo.
I ricercatori concludono che questo approccio offre un cambiamento di paradigma nei metodi di ragionamento di auto-miglioramento, “dall’auto-gioco a circuito chiuso che spesso ristagna a causa di derive allucinatorie, al perfezionamento aperto attraverso l’interazione con informazioni estese e verificabili incorporate in un corpus di documenti web”.
Il corpus attualmente utilizzato per SPICE rappresenta l’esperienza umana registrata nel testo. L’obiettivo finale è che i sistemi di auto-miglioramento generino domande basate sulle interazioni con la realtà, incluso il mondo fisico, Internet e le interazioni umane in una varietà di modalità come video, audio e dati dei sensori.















