Gli agenti basati sui modelli odierni spesso si interrompono con semplici modifiche (una nuova libreria, modifica del flusso di lavoro) ed è necessario un ingegnere umano per risolvere il problema. Questa è una delle sfide più persistenti nell’implementazione aziendale dell’intelligenza artificiale: costruire agenti in grado di adattarsi ad ambienti dinamici senza tenersi costantemente per mano. I modelli odierni, sebbene potenti, sono in gran parte statici.
Per risolvere questo problema, i ricercatori dell’Università della California a Santa Barbara hanno sviluppato: Agenti emergenti nel Gruppo (GEA) è un nuovo framework che consente a gruppi di agenti IA di evolversi insieme, condividere le proprie esperienze e riutilizzare le proprie innovazioni per evolversi autonomamente nel tempo.
Negli esperimenti su compiti complessi di codifica e ingegneria del software, GEA ha notevolmente sovraperformato i framework di auto-miglioramento esistenti. Forse la cosa più importante per i decisori aziendali è che il sistema ha sviluppato in modo autonomo agenti che soddisfano o superano le prestazioni di strutture progettate meticolosamente da esperti umani.
Limitazioni dell’evoluzione del “lupo solitario”.
La maggior parte di ciò che è disponibile sistemi di intelligenza artificiale degli agenti Affidati ad architetture fisse progettate da ingegneri. Questi sistemi spesso faticano a superare i limiti di capacità imposti dalla loro progettazione iniziale.
Per risolvere questo problema, i ricercatori stanno cercando da tempo di creare agenti autoevolutivi in grado di modificare il proprio codice e la propria struttura oltre i limiti iniziali. Questa capacità è essenziale per la gestione di ambienti aperti in cui l’agente deve scoprire costantemente nuove soluzioni.
Tuttavia, gli attuali approcci all’evoluzione personale presentano un grave difetto strutturale. Come notano i ricercatori nel loro articolo, la maggior parte dei sistemi sono ispirati e progettati sulla base dell’evoluzione biologica. "centrato sull’individuo" processi. Questi metodi utilizzano tipicamente un approccio strutturato ad albero: un singolo "genitori" L’individuo viene selezionato per produrre prole, creando rami evolutivi distinti e strettamente isolati gli uni dagli altri.
Questo isolamento crea un effetto silo. Un agente in un ramo non può accedere a dati, strumenti o flussi di lavoro rilevati da un agente in un ramo parallelo. Se un particolare lignaggio non può essere selezionato per la generazione successiva, le preziose scoperte fatte da quell’agente, come un nuovo strumento di debug o un flusso di lavoro di test più efficiente, scompaiono con esso.
Nel loro articolo, i ricercatori mettono in dubbio la necessità di aderire a questa metafora biologica. "Gli agenti dell’IA non sono individui biologici," Stanno litigando. "Perché la loro evoluzione dovrebbe limitarsi ai paradigmi biologici?"
Intelligenza collettiva degli agenti in evoluzione del gruppo
GEA cambia il paradigma considerando un gruppo di agenti piuttosto che un individuo come l’unità base dell’evoluzione.
Il processo inizia con la selezione di un gruppo di agenti principali da un archivio esistente. Per garantire un sano mix di stabilità e innovazione, GEA seleziona questi rappresentanti in base al punteggio combinato di performance (competenza nella risoluzione dei compiti) e innovazione (quanto diverse sono le loro capacità rispetto agli altri).
A differenza dei sistemi tradizionali in cui un agente impara direttamente solo dai suoi genitori, GEA crea un pool condiviso di esperienze collettive. Questo repository contiene le tracce evolutive di tutti i membri del supergruppo, comprese le modifiche al codice, le soluzioni riuscite alle attività e la cronologia delle invocazioni degli strumenti. Ogni rappresentante del gruppo ha accesso a questa storia collettiva, permettendogli di imparare dalle scoperte e dagli errori dei suoi pari.
Un “modulo di riflessione” alimentato da un ampio modello linguistico analizza questa storia collettiva per identificare modelli a livello di gruppo. Ad esempio, se un agente scopre uno strumento di debug ad alte prestazioni mentre un altro perfeziona un flusso di lavoro di test, il sistema otterrà entrambe le informazioni. Sulla base di questa analisi, il sistema è altamente "direttive evolutive" Guida la creazione del sottogruppo. Ciò garantisce che la generazione successiva avrà i punti di forza combinati di tutti i suoi genitori, non solo i tratti di un singolo lignaggio.
Tuttavia, questo approccio della mente alveare funziona meglio in situazioni in cui il successo è oggettivo, come le attività di codifica. "I segnali di valutazione sono più deboli per i domini meno deterministici (ad esempio la generazione creativa)," Zhaotian Weng e Xin Eric Wang, coautori dello studio, hanno dichiarato a VentureBeat in commenti scritti. "La condivisione cieca di risultati ed esperienze può portare a esperienze di bassa qualità che creano rumore. Ciò rivela la necessità di meccanismi di filtraggio dell’esperienza più forti" per compiti soggettivi.
GEA al lavoro
I ricercatori hanno testato GEA su una base all’avanguardia e sviluppata autonomamente. La macchina di Darwin Gödel (DGM), secondo due rigorosi criteri. I risultati hanno mostrato un enorme salto di capacità senza aumentare il numero di agenti utilizzati.
Questo approccio collaborativo rende inoltre il sistema più resistente ai guasti. Nei loro esperimenti, i ricercatori hanno deliberatamente violato gli agenti introducendo manualmente bug nelle loro implementazioni. GEA è stata in grado di correggere questi errori critici in una media di 1,4 iterazioni, mentre la linea di base ha richiesto 5 iterazioni. Il sistema utilizza in modo efficace "salutare" I membri del gruppo identificano e riparano quelli compromessi.
Su SWE-bench Verified, un benchmark di problemi reali di GitHub, inclusi bug e richieste di funzionalità, GEA ha ottenuto un tasso di successo del 71,0%, rispetto al 56,7% del valore di base. Ciò significa un aumento significativo dell’efficienza dell’ingegneria autonoma; Ciò significa che gli agenti possono gestire molto meglio la manutenzione del software nel mondo reale. Allo stesso modo, presso Polyglot, che testa la generazione di codice in diversi linguaggi di programmazione, GEA ha ottenuto l’88,3% contro il 68,3% del valore di riferimento; Ciò indica un’elevata adattabilità a diversi stack tecnologici.
La scoperta più importante per i team di ricerca e sviluppo aziendali è che GEA consente all’intelligenza artificiale di progettare se stessa con la stessa efficacia degli ingegneri. Nel confronto SWE, GEA ha un tasso di successo del 71,0%, Mani aperteIl miglior framework open source progettato dall’uomo. Su Polyglot, GEA ha nettamente sovraperformato Aider, un popolare assistente di codifica, con il 52,0%. Ciò suggerisce che le organizzazioni possono eventualmente ridurre la dipendenza da grandi team di ingegneri agili per mettere a punto le proprie strutture di agenti perché gli agenti possono meta-apprendere autonomamente queste ottimizzazioni.
Questa efficienza si riflette anche nella gestione dei costi. "GEA è chiaramente un sistema a due fasi: (1) sviluppo dell’agente, seguito da (2) inferenza/distribuzione," hanno detto i ricercatori. "Dopo l’evoluzione, si distribuisce un agente singolo migliorato… quindi il costo dell’inferenza aziendale rimane sostanzialmente invariato rispetto alla configurazione standard dell’agente singolo."
Il successo di GEA è in gran parte dovuto alla sua capacità di consolidare i miglioramenti. I ricercatori hanno monitorato innovazioni specifiche inventate dagli agenti durante tutto il processo evolutivo. Nell’approccio di base, strumenti preziosi spesso sorsero in rami isolati, ma la loro diffusione fallì quando questi particolari lignaggi giunsero alla fine. Il modello di esperienza condivisa presso GEA ha portato all’adozione di questi strumenti da parte delle agenzie con le migliori prestazioni. Il miglior agente GEA integra i tratti di 17 antenati unici (che rappresentano il 28% della popolazione), mentre il miglior agente base integra i tratti di soli 9. In realtà, GEA è un "super lavoratore" Unisce le migliori pratiche dell’intero gruppo.
"Un flusso di lavoro in produzione ispirato a GEA consentirà alle agenzie di provare innanzitutto diverse soluzioni indipendenti quando si verificano guasti." i ricercatori hanno spiegato questa capacità di autoguarigione. "Un agente di riflessione (solitamente supportato da un forte modello sottostante) può quindi riassumere i risultati… e guidare un aggiornamento del sistema più completo."
Inoltre, i miglioramenti scoperti da GEA non sono legati a uno specifico modello sottostante. Gli intermediari sono migliorati utilizzando un modello come Claude e hanno mantenuto i miglioramenti in termini di prestazioni anche quando il motore base è stato sostituito da un’altra famiglia di modelli come GPT-5.1 o GPT-o3-mini. Questa trasferibilità offre alle organizzazioni la flessibilità di cambiare fornitore di modelli senza perdere le ottimizzazioni architetturali specifiche apprese dai loro agenti.
Per le industrie con severi requisiti di conformità, l’idea di modificare autonomamente il codice può sembrare rischiosa. Per affrontare questo problema, gli autori hanno detto: "Ci aspettiamo che le implementazioni aziendali includano binari di protezione non evolutivi, come l’esecuzione in modalità sandbox, restrizioni di policy e livelli di verifica."
Anche se i ricercatori prevedono di rilasciare presto il codice ufficiale, gli sviluppatori possono già iniziare a implementare concettualmente l’architettura GEA sui framework degli agenti esistenti. Il sistema richiede tre aggiunte chiave a uno stack di agenti standard: un “archivio di esperienze” per memorizzare tracce evolutive, un “modulo di riflessione” per analizzare modelli di gruppo e un “modulo di aggiornamento” che consente all’agente di modificare il proprio codice sulla base di queste intuizioni.
Guardando al futuro, il quadro potrebbe democratizzare lo sviluppo delle agenzie avanzate. "Una direzione promettente sono i gasdotti di evoluzione ibrida." i ricercatori hanno detto: "Un luogo in cui modelli più piccoli esplorano presto per accumulare esperienze diverse, e modelli più potenti utilizzano poi quelle esperienze per guidare l’evoluzione."















