I ricercatori del Tongyi Lab di Alibaba hanno sviluppato un nuovo framework per agenti autosviluppanti che generano i propri dati di addestramento esplorando gli ambienti applicativi. telaio, AgentEvolverSfrutta la conoscenza e le capacità di ragionamento di grandi modelli linguistici per l’apprendimento autonomo, affrontando i costi elevati e lo sforzo manuale spesso richiesti per raccogliere set di dati specifici per attività.

Gli esperimenti dimostrano che rispetto ai tradizionali framework basati sull’apprendimento per rinforzo, AgentEvolver è più efficiente nell’esplorazione del suo ambiente, fa un uso migliore dei dati e si adatta più rapidamente agli ambienti applicativi. Dal punto di vista aziendale, questo è importante perché riduce la barriera alla formazione di agenti per applicazioni specifiche, rendendo gli assistenti IA potenti e specializzati più accessibili a una gamma più ampia di organizzazioni.

L’alto costo della formazione degli agenti IA

apprendimento per rinforzo È diventato un paradigma importante nella formazione dei LLM affinché agiscano come agenti in grado di interagire con gli ambienti digitali e apprendere dal feedback. Tuttavia, lo sviluppo di agenti con RL deve affrontare sfide fondamentali. Innanzitutto, la raccolta dei set di dati di formazione richiesti è spesso proibitiva e richiede una notevole quantità di lavoro manuale per creare esempi di attività, soprattutto in ambienti software nuovi o personalizzati in cui i set di dati standard non sono disponibili.

In secondo luogo, le tecniche RL comunemente utilizzate per gli LLM richiedono che il modello passi attraverso numerosi tentativi ed errori per apprenderlo in modo efficace. Questo processo è computazionalmente costoso e inefficiente. Di conseguenza, la formazione di rappresentanti LLM di talento tramite RL rimane laboriosa e costosa, limitandone l’implementazione in ambienti aziendali specializzati.

Come funziona AgentEvolver?

L’idea principale alla base di AgentEvolver è quella di dare ai modelli maggiore autonomia nel loro processo di apprendimento. I ricercatori lo descrivono come un “sistema di agenti autoevolutivi” progettato per “raggiungere uno sviluppo di capacità autonomo ed efficiente attraverso l’interazione ambientale”. Utilizza il potere di ragionamento di un LLM per creare un ciclo di autoformazione, consentendo all’agente di migliorare continuamente interagendo direttamente con il suo ambiente target senza la necessità di compiti predefiniti o funzioni di ricompensa.

“Immaginiamo un sistema di agenti in cui LLM guida attivamente l’esplorazione, la generazione di attività e il miglioramento delle prestazioni”, hanno scritto i ricercatori. i loro documenti.

Il processo di sviluppo personale è guidato da tre meccanismi fondamentali che lavorano insieme.

il primo interrogarsi su se stessiQui l’agente esplora il suo ambiente per scoprire i limiti delle sue funzioni e identificare stati utili. È come se un nuovo utente facesse clic su un’app per vedere cosa è possibile fare. Sulla base di questa ricerca, l’agente crea il proprio insieme diversificato di attività in linea con le preferenze generali dell’utente. Ciò riduce la necessità di set di dati realizzati manualmente e consente all’agente e ai suoi compiti di evolversi insieme, consentendogli di affrontare sfide sempre più complesse.

Secondo Yunpeng Zhai, ricercatore di Alibaba e coautore del documento, che ha parlato con VentureBeat, il meccanismo di autointerrogazione “trasforma efficacemente il modello da consumatore di dati a produttore di dati”, riducendo significativamente il tempo e i costi necessari per implementare un agente in un ambiente privato.

Il secondo meccanismo è auto-navigazioneAumenta l’efficienza della scoperta riutilizzando e generalizzando le esperienze passate. AgentEvolver estrae informazioni approfondite sia dai tentativi riusciti che da quelli falliti e li utilizza per guidare le azioni future. Ad esempio, se un agente tenta di utilizzare una funzione API che non esiste in un’applicazione, registra l’esperienza come esperienza e impara a verificare l’esistenza delle funzioni prima di tentare di utilizzarle in futuro.

Terzo meccanismo, auto-attribuitoAumenta l’efficienza dell’apprendimento fornendo un feedback più dettagliato. Invece di un semplice segnale finale di successo o fallimento (una pratica comune in RL che può comportare ricompense poco frequenti), questo meccanismo utilizza un LLM per valutare il contributo di ciascuna azione in un compito in più fasi. Determina retrospettivamente se ogni passaggio ha contribuito positivamente o negativamente al risultato finale e fornisce all’agente un feedback dettagliato che accelera l’apprendimento.

Ciò è fondamentale nei settori regolamentati, dove il modo in cui un agente risolve un problema è importante quanto il risultato. “Invece di premiare semplicemente uno studente per la sua risposta finale, valutiamo anche la chiarezza e l’accuratezza di ogni passaggio del suo ragionamento”, ha spiegato Zhai. Ciò aumenta la trasparenza e incoraggia l’agente ad adottare modelli di risoluzione dei problemi più robusti e verificabili.

“Spostando l’iniziativa educativa dalle condutture dell’ingegneria umana all’auto-miglioramento guidato dai Master, AgentEvolver crea un nuovo paradigma che apre la strada a sistemi intelligenti scalabili, economici e in continuo miglioramento”, affermano i ricercatori.

Il team ha inoltre sviluppato un quadro pratico di formazione end-to-end che combina questi tre meccanismi. Una parte importante di questa fondazione Gestore del contestoUn componente che controlla la memoria dell’agente e la cronologia delle interazioni. Mentre i benchmark odierni testano un numero limitato di strumenti, gli ambienti aziendali reali possono contenere migliaia di API.

Zhai ammette che questa è una sfida chiave per il settore, ma sottolinea che AgentEvolver è progettato per essere ampliato. “L’accesso a domini d’azione estremamente ampi presenterà sempre sfide computazionali, ma l’architettura di AgentEvolver fornisce un percorso chiaro verso un ragionamento scalabile in ambienti aziendali”, ha affermato.

Un percorso più efficace per la formazione degli agenti

Per misurare l’efficacia del loro quadro, i ricercatori lo hanno testato Mondo delle applicazioni E BFCL v3Due benchmark che richiedono agli agenti di eseguire attività lunghe e in più passaggi utilizzando strumenti esterni. Hanno utilizzato i modelli di Alibaba Famiglia Qwen2.5 (parametri 7B e 14B) e hanno confrontato le loro prestazioni con un modello di base addestrato con GRPO, una tecnica RL popolare utilizzata per sviluppare modelli di ragionamento come il seguente. DeepSeek-R1.

I risultati hanno mostrato che l’integrazione di tutti e tre i meccanismi in AgentEvolver ha portato a significativi miglioramenti delle prestazioni. Il punteggio medio per il modello 7B è migliorato del 29,4% e per il modello 14B è aumentato del 27,8% rispetto al basale. Il quadro ha costantemente migliorato il ragionamento dei modelli e le capacità di esecuzione delle attività in entrambi i benchmark. Il miglioramento più significativo è arrivato dal modulo di autoindagine, che genera autonomamente vari compiti di formazione e affronta direttamente il problema della scarsità di dati.

Gli esperimenti hanno inoltre dimostrato che AgentEvolver può sintetizzare in modo efficiente grandi quantità di dati di addestramento di alta qualità. I compiti generati dal modulo di autoindagine si sono rivelati sufficientemente diversificati da consentire una buona efficienza formativa anche con una piccola quantità di dati.

Per le organizzazioni, questo fornisce un modo per creare agenti per applicazioni personalizzate e flussi di lavoro interni riducendo al minimo la necessità di annotazione manuale dei dati. Le organizzazioni possono sviluppare assistenti IA personalizzati in modo più semplice ed economico fornendo obiettivi di alto livello e consentendo all’agente di creare le proprie esperienze di formazione.

«Questa combinazione di progettazione algoritmica e pragmatica ingegneristica posiziona AgentEvolver sia come strumento di ricerca che come base riutilizzabile per la creazione di agenti adattabili e potenziati dagli strumenti», concludono i ricercatori.

Guardando al futuro, l’obiettivo finale è molto più grande. “Un ‘modello davvero singolare’ che può essere inserito in qualsiasi ambiente software e padroneggiato dall’oggi al domani è sicuramente il Santo Graal dell’intelligenza artificiale degli agenti”, ha affermato Zhai. “Consideriamo AgentEvolver un passo necessario in questa direzione.” Sebbene questo futuro richieda ancora innovazioni nella logica dei modelli e nelle infrastrutture, gli approcci di auto-miglioramento stanno aprendo la strada.

Collegamento alla fonte