I ricercatori di Meta, dell’Università di Chicago e dell’UC Berkeley hanno sviluppato un nuovo quadro che affronta i costi elevati, la complessità dell’infrastruttura e il feedback inaffidabile associati all’uso dell’apprendimento per rinforzo (RL) per addestrare agenti LLM (Large Language Model). telaio, DreamGymsimula un ambiente RL per addestrare agenti per applicazioni complesse. Man mano che si procede nel processo di formazione, la struttura regola dinamicamente la difficoltà del compito, consentendo all’agente di imparare gradualmente a risolvere problemi più impegnativi man mano che migliora.
Gli esperimenti condotti dal gruppo di ricerca mostrano che DreamGym migliora significativamente l’allenamento RL sia in ambienti completamente sintetici che in scenari in cui il modello deve applicare l’apprendimento simulato al mondo reale. Negli ambienti in cui RL è possibile ma costoso, riduce significativamente i costi di raccolta dati e di interazione con l’ambiente eguagliando le prestazioni degli algoritmi più diffusi che utilizzano solo interazioni sintetiche.
Questo approccio può essere vitale per le aziende poiché consente loro di formare agenti per applicazioni specifiche evitando la complessità della configurazione e della gestione di ambienti RL live.
La difficoltà di formare i rappresentanti del Master
apprendimento per rinforzo È una tecnica importante per addestrare gli LLM a svolgere compiti complessi in ambienti di agenti come la navigazione web, l’uso dei veicoli e la robotica. Va oltre i set di dati statici utilizzati nella fase preliminare della formazione, consentendo ai modelli di apprendere dall’interazione diretta e dall’esperienza.
Ma RL per la formazione degli agenti è ancora difficile. Le applicazioni del mondo reale spesso comportano lunghe sequenze di azioni con segnali sparsi; Ciò significa che l’agente riceve un segnale positivo solo dopo una sequenza lunga e accurata di azioni.
Anche la raccolta di dati sufficientemente diversificati e convalidati è costosa; spesso richiede esperti umani per convalidare le attività e annotare i risultati. Inoltre, l’infrastruttura necessaria per creare ambienti live per la formazione RL su larga scala può essere estremamente complessa e costosa. Senza contare che interagire con i sistemi live comporta dei rischi, poiché azioni sbagliate (come eliminare un file) possono causare danni irreparabili.
“Queste limitazioni rendono la creazione di sistemi generali e scalabili per la formazione di agenti con RL una sfida chiara e urgente”, scrivono i ricercatori.
DreamGym sfida direttamente questo modello offrendo prestazioni comparabili nella simulazione pura, eliminando il sovraccarico dell’infrastruttura che impedisce alla maggior parte delle aziende di adottare RL e offrendo ai team un modo pratico per formare gli agenti senza toccare ambienti live costosi o rischiosi.
Come funziona DreamGym?
I ricercatori descrivono DreamGym come “un framework RL unificato e scalabile che sintetizza diversi dati sull’esperienza online per consentire una formazione efficiente ed efficace dei rappresentanti LLM”. È costruito attorno a tre componenti chiave che lavorano insieme per creare un ciclo di formazione controllato ed efficace.
La prima componente è il “modello esperienziale basato sul ragionamento” che traduce le dinamiche dell’ambiente target in uno spazio testuale. Questo modello funge da simulatore dell’ambiente applicativo. Invece di interagire con un costoso ambiente reale, l’agente interagisce con questo modello, che produce transizioni di stato e feedback coerenti basati sulle azioni dell’agente.
I ricercatori hanno scoperto che l’addestramento degli agenti non dipende da ambienti perfettamente realistici, ma piuttosto da "sufficientemente diversificati, informativi e basati sulla causalità." Ad esempio, in un’attività di acquisto sul Web, il modello sintetizza elenchi puliti di elementi sulla pagina anziché elaborare codice HTML grezzo. Questo approccio astratto richiede solo una piccola quantità di dati disponibili al pubblico, rendendo la formazione del modello di esperienza altamente efficiente.
Il secondo componente è un “buffer di replay dell’esperienza” che funge da memoria dinamica. All’inizio del processo di addestramento, il buffer viene alimentato con dati offline per fornire il contesto di base e viene costantemente aggiornato con nuove traiettorie sintetiche create durante l’addestramento. Questo buffer guida le previsioni del modello di esperienza, garantendo che le esperienze sintetiche rimangano diverse e reali.
Il terzo componente, il “generatore di compiti curriculari”, funziona con il modello di esperienza per creare in modo adattivo nuovi compiti che diventano sempre più impegnativi. Identifica i compiti su cui le prestazioni dell’agente sono contrastanti (segnalando che sono difficili ma risolvibili) e produce modifiche per migliorare le capacità dell’agente.
Insieme, questi componenti creano un sistema a circuito chiuso per la formazione scalabile degli agenti. “Combinando interattività, memoria e generazione adattiva di attività online, DreamGym affronta le sfide persistenti con RL limitato per la formazione degli agenti LLM: costi proibitivi, scarsità di compiti diversi, segnali di ricompensa instabili e pesanti richieste infrastrutturali”, secondo i ricercatori.
DreamGym al lavoro
I ricercatori hanno valutato DreamGym rispetto a diversi criteri rappresentativi, tra cui WebShop (e-commerce), ALFWorld (controllo strutturato) e WebArena (interazione web realistica). hanno usato Lama 3 E Qwen 2.5 hanno creato modelli come colonne portanti rappresentative e hanno confrontato DreamGym con varie strategie di allenamento tradizionali. Questi includevano metodi offline come la messa a punto supervisionata (SFT) e l’ottimizzazione delle preferenze dirette (DPO), nonché algoritmi RL online come Proximity Policy Optimization (PPO) e Group Relative Policy Optimization (GRPO) che migliorano gli agenti attraverso l’interazione con l’ambiente live.
DreamGym ha dimostrato il suo vantaggio più significativo in ambienti come WebArena, dove è difficile creare un’infrastruttura RL su larga scala. Gli agenti formati interamente internamente presso DreamGym hanno raggiunto percentuali di successo superiori al 30% rispetto ai metodi di base che lottano con ricompense scarse e esplorazione limitata nell’ambiente reale. I ricercatori hanno affermato che ciò dimostra che DreamGym è un meccanismo che rende l’allenamento RL “fattibile in ambiti che in precedenza erano difficili a causa delle attività intrinseche e dei vincoli ingegneristici”.
Negli ambienti in cui il RL era supportato ma costoso, gli agenti addestrati con DreamGym si comportavano allo stesso modo degli agenti addestrati utilizzando GRPO e PPO, ma non avevano alcuna interazione costosa con l’ambiente esterno. Il team ha anche introdotto un approccio sim-to-reality chiamato DreamGym-S2R, in cui un agente viene prima addestrato in un ambiente sintetico e poi messo a punto su una piccola quantità di dati del mondo reale. Questa strategia ha prodotto un miglioramento delle prestazioni di oltre il 40% rispetto alla formazione da zero nell’ambiente reale utilizzando meno del 10% di dati esterni. Ciò fornisce un file scalabile "inizio caldo" Per la formazione di agenti generici.
Infine, il quadro ha dimostrato una forte generalizzazione. Un agente addestrato in attività in un dominio, come WebShop, può trasferire con successo le competenze apprese in un altro dominio, come WebArena. I ricercatori suggeriscono che ciò sia dovuto a un processo di apprendimento da parte dei rappresentanti della DreamGym. "Il dominio di meta-rappresentazione astratta consente all’agente di apprendere priorità comportamentali indipendenti dal dominio piuttosto che memorizzare modelli specifici del compito."
Sebbene DreamGym sia ancora agli inizi, dimostra che gli ambienti simulati possono offrire grandi vantaggi agli addetti alla formazione. In pratica, un’organizzazione può raccogliere una piccola quantità di traiettorie e descrizioni delle attività che desidera automatizzare. Può quindi utilizzare questo piccolo kernel per avviare i framework DreamGym per una formazione degli agenti scalabile ed efficiente a livello di campione.














