I ricercatori dell’Università di Scienza e Tecnologia della Cina hanno sviluppato un nuovo quadro di apprendimento per rinforzo (RL) che aiuta ad addestrare modelli linguistici di grandi dimensioni (LLM) per compiti complessi che vanno oltre problemi ben definiti come la matematica e la codifica.

il loro quadro, Agente-R1È compatibile con i più diffusi algoritmi RL e mostra un miglioramento significativo nelle attività di ragionamento che richiedono più fasi di accesso e interazioni a più round con gli strumenti.

Il framework si basa su una ridefinizione del paradigma RL che tiene conto della natura dinamica delle applicazioni dell’agenzia che richiedono l’interazione con ambienti in evoluzione e informazioni imperfette. Questa inquadratura assomiglia più da vicino alle applicazioni del mondo reale e può avere usi importanti per le attività di agenzia in ambienti aziendali.

Ripensare l’apprendimento per rinforzo per gli agenti

RL è diventata la pietra angolare della formazione dei LLM per compiti di ragionamento ben definiti. In campi come la matematica e la codifica, il modello riceve un segnale chiaro: la risposta è giusta o sbagliata. Ciò rende relativamente semplice premiare o punire il comportamento.

Ma questo approccio si scontra con i compiti degli agenti che richiedono che i modelli operino in ambienti interattivi, sviluppino ricordi dinamici attraverso le conversazioni, eseguano ragionamenti in più fasi e rispondano a feedback imprevedibili. Addestrare gli agenti con RL per questi scenari presenta sfide uniche, soprattutto nelle interazioni multi-turno in cui la progettazione di ricompense efficaci è complessa e l’agente addestrato spesso non riesce a generalizzare alla natura complessa e imprevedibile degli ambienti del mondo reale.

Per superare queste sfide, i ricercatori dell’Università di Scienza e Tecnologia hanno rivisitato la struttura di base di RL. Processo decisionale di Markov (MDP). Un MDP modella il processo decisionale utilizzando quattro componenti chiave: uno spazio degli stati (l’insieme dei possibili stati in cui può trovarsi un agente); un campo d’azione (cosa può fare l’agente); probabilità di una transizione di stato (lo stato a cui è probabile che un’azione conduca); e una funzione di ricompensa (se il risultato è buono o cattivo). L’articolo suggerisce di estendere questo quadro per adattarsi meglio agli agenti LLM.

Nella nuova formulazione, lo spazio degli stati viene ampliato per includere non solo lo stato corrente (l’attuale insieme di token generati dal modello) ma anche l’intera storia delle interazioni e dei feedback ambientali. Le azioni riguardano ancora principalmente il rendering del testo, ma stringhe di testo specifiche ora possono attivare strumenti esterni come una chiamata API. Le transizioni di stato diventano imprevedibili o "stocastico," perché il risultato dipende non solo dagli indicatori previsti dal modello, ma anche dalla reazione dell’ambiente, che dipende da fattori esterni. Infine, il sistema di ricompensa diventa più elaborato per includere premi di medio livello. "elaborare le ricompense" Per aver completato con successo i passaggi lungo il percorso, anziché una singola ricompensa alla fine. Ciò fornisce indicazioni più frequenti e precise all’agente durante la formazione.

Quest’ultima parte è particolarmente importante e affronta il problema della “scarsa ricompensa” che deve affrontare la maggior parte dei framework RL. Quando l’agente riceve un unico segnale di ricompensa in base al risultato finale, non impara dai passaggi intermedi giusti e sbagliati che ha intrapreso lungo il percorso. Le ricompense del processo risolvono questo problema fornendo segnali di feedback in questi passaggi intermedi, rendendo il processo di apprendimento molto più efficiente.

“Queste estensioni sono cruciali per consentire agli algoritmi di apprendimento per rinforzo di addestrare agenti avanzati capaci di ragionamenti complessi e in più fasi e di interazioni in ambienti dinamici”, scrivono i ricercatori nel loro articolo.

Quadro Agente-R1

Sulla base della definizione ampliata di MDP, i ricercatori hanno sviluppato: Agente-R1Una piattaforma di formazione flessibile e intuitiva per agenti LLM basati su RL. Estende i tradizionali framework RL a turno singolo per affrontare la natura interattiva e a più turni delle attività mediate, consentendo un’integrazione perfetta con una varietà di ambienti.

La differenza più importante è "fase di lancio," Dove l’agente genera risposte. Nella RL a giro singolo, il modello produce una risposta una volta. Nel RL multi-round, il processo prevede una serie di complesse interazioni avanti e indietro.

Agent-R1 realizza questa distribuzione flessibile a più round con due moduli chiave: Tool e ToolEnv. Il modulo dello strumento funge da esecutore per determinate azioni, come la chiamata di un’API o l’accesso a un database. Quando viene chiamato uno strumento, esegue la sua azione e restituisce il risultato diretto e grezzo. Al contrario, il modulo ToolEnv ​​​​è l’orchestratore e l’interprete. Prende l’output dall’agente e determina come tale risultato influenzerà lo stato dell’agente e il progresso complessivo della missione. ToolEnv ​​gestisce le transizioni di stato, calcola i segnali di ricompensa in base ai risultati dello strumento e impacchetta le nuove informazioni sullo stato per lo strumento.

In breve, quando un’azione viene completata lo Strumento avvisa: "Quello che è successo," Quando si determina ToolEnv "cosa significa questo risultato per l’agente e l’attività."

Agente-R1 in azione

I ricercatori hanno testato Agent-R1 su un compito impegnativo come la risposta a domande multi-hop, che richiede un ragionamento complesso, l’accesso alle informazioni su più documenti e un processo decisionale in più fasi. Hanno addestrato Qwen2.5-3B-Instruct sui set di dati QA e ne hanno valutato le prestazioni. hotpotka E 2WikiMultihopQA set di dati. Lo hanno testato anche sul set di dati Musique, che non rientrava nell’ambito delle attività su cui l’agente era stato addestrato.

Hanno confrontato vari algoritmi RL addestrati con Agent-R1 con due linee di base: Naive RAG, un metodo di recupero a passaggio singolo in cui LLM risponde in base a una serie di documenti recuperati, e Base Tool Call, che utilizza la capacità di chiamata di funzione nativa del modello senza una formazione RL speciale.

I risultati hanno mostrato che tutti gli agenti addestrati all’RL hanno sostanzialmente sovraperformato i valori di riferimento. GRPO, un algoritmo RL utilizzato nei modelli di ragionamento avanzati DeepSeek-R1ha fornito le migliori prestazioni complessive.

“Questi risultati convalidano in modo affidabile l’efficacia di Agent-R1 nell’addestramento di robusti agenti LLM tramite RL end-to-end, mostrando guadagni costanti e significativi rispetto alle linee di base attraverso una varietà di set di dati e algoritmi RL”, scrivono i ricercatori.

Questi risultati possono essere importanti per l’organizzazione, dove c’è una forte pressione per applicare il RL e ragionare oltre ambiti ben definiti. Un framework progettato per gestire interazioni complesse e sfaccettate con utenti e ambienti dinamici potrebbe aprire la strada a nuovi agenti in grado di risolvere problemi complessi in ambienti del mondo reale.

«Ci ​​auguriamo che Agent-R1 fornisca una base per il lavoro futuro sulla formazione RL scalabile e unificata per LLM mediati», concludono i ricercatori.

Collegamento alla fonte