Invece di creare complesse regole di coordinamento codificate, l’addestramento di modelli di intelligenza artificiale standard contro un gruppo diversificato di avversari è sufficiente per produrre sistemi multi-agente collaborativi che si adattano istantaneamente l’uno all’altro. Questa è la scoperta del team Intelligence Paradigms di Google; sostiene che l’approccio offre: schema scalabile e computazionalmente efficiente per distribuzioni multi-agente aziendali senza richiedere impalcature dedicate.

La tecnica funziona addestrando un agente Master attraverso l’apprendimento di rinforzo decentralizzato contro un gruppo misto di avversari, alcuni che apprendono attivamente, altri statici e basati su regole. Invece di regole codificate, l’agente utilizza l’apprendimento contestuale per leggere ogni interazione e adattare il proprio comportamento in tempo reale.

Perché i sistemi multi-agente continuano a combattersi tra loro?

Il panorama dell’intelligenza artificiale si sta rapidamente spostando da sistemi isolati a una flotta di agenti che devono negoziare, collaborare e operare contemporaneamente in spazi condivisi. Nei sistemi multi-agente, il successo di un’attività dipende dalle interazioni e dai comportamenti di più entità, anziché da un singolo agente.

L’attrito fondamentale in questi sistemi multi-agente è che le loro interazioni spesso implicano obiettivi concorrenti. Poiché questi agenti autonomi sono progettati per massimizzare i propri parametri specifici, è incredibilmente difficile garantire che non si indeboliscano attivamente a vicenda in questi scenari con motivazioni miste.

L’apprendimento per rinforzo multi-agente (MARL) tenta di risolvere questo problema addestrando più agenti IA che lavorano, interagiscono e apprendono simultaneamente nello stesso ambiente condiviso. Tuttavia, nelle architetture aziendali del mondo reale, un unico sistema centralizzato raramente ha visibilità o controllo su ogni parte in movimento. Gli sviluppatori devono fare affidamento su MARL decentralizzato, in cui i singoli agenti devono capire come interagire con gli altri accedendo solo ai propri dati e osservazioni locali limitati.

Uno dei problemi principali del MARL decentralizzato è che gli agenti spesso rimangono bloccati in situazioni non ottimali quando cercano di massimizzare le loro ricompense private. I ricercatori lo esprimono in questo modo: "fuga reciproca," basato su Il dilemma del prigioniero Puzzle utilizzato nella teoria dei giochi. Consideriamo ad esempio due algoritmi automatizzati di determinazione dei prezzi impegnati in una corsa distruttiva verso il basso. Poiché ogni agente ottimizza esclusivamente per la propria ricompensa egoistica, si ritrova in una situazione di stallo in cui perde l’azienda più ampia.

Un altro problema è che i tradizionali telai da allenamento sono progettati per ambienti stazionari; Ciò significa che le regole del gioco e il comportamento dell’ambiente sono relativamente fissi. In un sistema multi-agente, dal punto di vista di ciascun agente, l’ambiente è fondamentalmente imprevedibile e in costante cambiamento perché altri agenti stanno simultaneamente imparando e adattando le loro politiche.

Sebbene gli sviluppatori aziendali attualmente si affidino a framework che utilizzano macchine a stato solido, questi metodi spesso incontrano il limite della scalabilità nelle implementazioni complesse.

“Il limite principale dell’orchestrazione hard-coded è la mancanza di flessibilità”, ha detto a VentureBeat Alexander Meulemans, coautore dell’articolo e ricercatore senior del team Intelligence Paradigms di Google. “Sebbene le macchine a stato solido funzionino adeguatamente in spazi ristretti, potrebbero non adattarsi all’espansione della portata e della complessità delle implementazioni degli agenti. Il nostro approccio contestuale integra questi framework esistenti incoraggiando comportamenti sociali adattivi che sono profondamente radicati nella fase post-formazione.”

Cosa significa questo per gli sviluppatori che utilizzano LangGraph, CrewAI o AutoGen?

Framework come LangGraph richiedono agli sviluppatori di definire esplicitamente agenti, transizioni di stato e logica di routing come un grafico. LangChain descrive questo approccio come equivalente a una macchina a statidove i nodi intermedi e le loro connessioni rappresentano stati e matrici di transizione. L’approccio di Google inverte questo modello: invece di codificare come gli agenti dovrebbero coordinarsi, genera un comportamento cooperativo attraverso la formazione e consente agli agenti di dedurre regole di coordinamento dal contesto.

I ricercatori dimostrano che gli sviluppatori possono realizzare sistemi multi-agente avanzati e collaborativi utilizzando lo stesso insieme standard di tecniche di modellazione e apprendimento per rinforzo che alimentano i modelli di base odierni.

Il team ha convalidato il concetto utilizzando un nuovo metodo chiamato Predictive Policy Optimization (PPI); Tuttavia, Meulemans osserva che il principio di base è indipendente dal modello.

“Le squadre dovrebbero implementare una routine di formazione ‘mixed pool’ piuttosto che formare un piccolo gruppo di agenti con ruoli fissi”, ha detto Meulemans. “Gli sviluppatori possono riprodurre queste dinamiche utilizzando algoritmi di apprendimento di rinforzo standard e disponibili sul mercato (come GRPO).”

I team creano un solido ambiente di apprendimento facendo interagire gli agenti con una varietà di co-attori (ad esempio, apportando modifiche ai prompt del sistema, mettendo a punto parametri o politiche sottostanti). Ciò produce strategie durevoli quando si interagisce con nuovi partner e garantisce che l’apprendimento multiagente porti a comportamenti cooperativi stabili e a lungo termine.

Come hanno dimostrato i ricercatori che funziona?

Per creare agenti in grado di dedurre con successo la strategia del giocatore partner, i ricercatori hanno creato un sistema di addestramento decentralizzato in cui l’intelligenza artificiale ha affrontato un gruppo misto di avversari altamente diversificato, costituito da modelli di apprendimento attivo e programmi statici basati su regole. Questa diversità necessaria richiede che l’agente comprenda dinamicamente con chi sta interagendo e adatti il ​​suo comportamento al volo, interamente dal contesto dell’interazione.

Per gli sviluppatori aziendali, questa affermazione "apprendimento in contesto" Spesso suscita preoccupazioni riguardo al rigonfiamento della finestra di contesto, ai costi delle API e alla latenza, soprattutto quando le finestre sono già piene di dati RAG (Access-Augmented Generation) e di prompt di sistema. Tuttavia, Meulemans spiega che questa tecnica si concentra sull’efficienza piuttosto che sul numero di token. “Il nostro metodo si concentra sull’ottimizzazione del modo in cui gli agenti utilizzano il contesto esistente dopo la formazione, piuttosto che richiedere rigorosamente finestre di contesto più ampie”, ha affermato. Addestrando gli agenti ad analizzare la cronologia delle loro interazioni per dedurre strategie, utilizzano il contesto assegnato in modo più adattivo senza la necessità di finestre di contesto più lunghe rispetto alle implementazioni attuali.

Utilizzando il dilemma del prigioniero iterativo (IPD) come punto di riferimento, i ricercatori hanno raggiunto una collaborazione solida e stabile senza le tradizionali stampelle. Non esiste una distinzione artificiale tra meta e studenti interni e non è necessario codificare presupposti su come funziona l’algoritmo dell’avversario. Svolge efficacemente entrambi i ruoli contemporaneamente, poiché l’agente si adatta in tempo reale aggiornando al contempo i pesi del modello di base sottostante nel tempo attraverso molte interazioni. In effetti, gli agenti hanno ottenuto risultati migliori quando non hanno ricevuto informazioni sui loro avversari e hanno dovuto adattare il loro comportamento attraverso tentativi ed errori.

Il ruolo dello sviluppatore cambia da scrittore di regole ad architetto

I ricercatori affermano che il loro lavoro colma il divario tra l’apprendimento di rinforzo multi-agente e i paradigmi di addestramento dei moderni modelli di base. “Poiché i modelli sottostanti mostrano intrinsecamente un apprendimento contestuale e sono addestrati su una varietà di compiti e comportamenti, i nostri risultati suggeriscono un modo scalabile e computazionalmente efficiente per suscitare comportamenti sociali collaborativi utilizzando tecniche di apprendimento decentralizzato standard”, scrivono.

Poiché la dipendenza dall’adattamento comportamentale al contesto diventa la norma anziché la codifica di regole rigide, l’elemento umano dell’ingegneria dell’IA cambierà radicalmente. “Il ruolo dello sviluppatore di applicazioni AI può evolversi dalla progettazione e gestione di regole di interazione individuali alla progettazione e alla fornitura di una supervisione architettonica di alto livello per gli ambienti educativi”, ha affermato Meulemans. Questo cambiamento porta gli sviluppatori dalla scrittura di regole ristrette all’assunzione di un ruolo strategico, definendo parametri ampi che consentono agli agenti di imparare a essere utili, sicuri e collaborativi in ​​ogni situazione.

Collegamento alla fonte