I ricercatori di Google e del MIT hanno condotto uno studio. analisi esaustiva La struttura dei sistemi di agenti e la dinamica tra numero di agenti, struttura di coordinamento, capacità del modello e caratteristiche del compito. La sensazione prevalente finora nel settore è "tutto ciò di cui hai bisogno sono più rappresentanti," La ricerca suggerisce che il ridimensionamento dei team di agenti non è un percorso garantito per migliorare le prestazioni.

Sulla base dei loro risultati, i ricercatori hanno definito un modello quantitativo in grado di prevedere le prestazioni di un sistema ad agenti su un compito invisibile. Il loro studio rileva che l’aggiunta di più strumenti e strumenti agisce come un’arma a doppio taglio: sebbene possa sbloccare le prestazioni su determinati problemi, spesso causa spese generali inutili e riduce il rendimento su altri.

Questi risultati forniscono una roadmap critica per gli sviluppatori e i decisori aziendali che cercano di determinare quando implementare architetture multi-agente complesse rispetto a soluzioni ad agente singolo più semplici ed economiche.

Stato dei sistemi ad agenti

Per comprendere i risultati dello studio è necessario distinguere due architetture fondamentali oggi utilizzate. I sistemi ad agente singolo (SAS) hanno un focus di ragionamento su un unico agente. In questa configurazione, tutta la percezione, la pianificazione e l’azione avvengono all’interno di un singolo ciclo sequenziale controllato da un’istanza LLM, anche quando si utilizzano strumenti di sistema, auto-riflessione o ragionamento basato sulla catena di pensiero (CoT). Al contrario, un sistema multi-agente (MAS) coinvolge più agenti supportati da LLM che comunicano tramite trasferimento di messaggi strutturati, memoria condivisa o protocolli regolamentati.

Il settore imprenditoriale ha vissuto un periodo L’interesse per MAS è in aumentopartendo dalla premessa che la collaborazione specializzata può costantemente superare i sistemi ad agente singolo. Man mano che le attività diventano più complesse e richiedono un’interazione costante con gli ambienti (ad esempio assistenti di codifica o robot di analisi finanziaria), gli sviluppatori spesso presumono che sia necessario dividere il lavoro tra: "esperto" gli agenti sono un approccio superiore.

Ma i ricercatori sostengono che, nonostante questa rapida adozione, non rimane alcun quadro quantitativo di principio per prevedere quando l’aggiunta di intermediari migliorerà la performance e quando la indebolirà.

Un contributo importante dell’articolo è la distinzione tra: "statico" E "agente" compiti. I ricercatori hanno presentato una domanda "Lista di controllo per il confronto delle agenzie" Distinguere i compiti che richiedono interazioni continue in più fasi, raccolta iterativa di informazioni e sviluppo di strategie adattive da quelli che non lo richiedono. Questa distinzione è vitale perché le strategie che funzionano per la risoluzione di problemi statici (come votare in un quiz di codifica) spesso falliscono se applicate a compiti di intermediazione reali. "il carico di coordinamento” e la “propagazione degli errori” possono diffondersi durante il processo di risoluzione dei problemi.

Testare i limiti della collaborazione

Per isolare gli effetti specifici dell’architettura del sistema, i ricercatori hanno progettato un quadro sperimentale rigoroso. Hanno testato 180 configurazioni uniche, tra cui cinque diverse architetture, tre famiglie LLM (OpenAI, Google e Anthropic) e hanno confrontato quattro strumenti. Le architetture includevano un gruppo di controllo ad agente singolo e quattro varianti multi-agente: indipendente (agenti paralleli senza comunicazione), centralizzato (agenti che riportano a un orchestratore), decentralizzato (discussione peer-to-peer) e ibrido (un mix di gerarchia e comunicazione peer-to-peer).

Progettato per eliminare il lavoro "l’app è confusa" Standardizzando strumenti, build veloci e budget token. Ciò garantiva che, se un sistema multi-agente avesse funzionato meglio di un singolo agente, il guadagno potesse essere attribuito alla struttura di coordinamento piuttosto che all’accesso a strumenti migliori o a maggiori calcoli.

I risultati sono impegnativi "di più è meglio" narrativa. Dalla valutazione emerge che l’efficacia dei sistemi multi-agente è governata da: "Compromessi misurabili tra caratteristiche architettoniche e caratteristiche delle attività." I ricercatori hanno identificato tre modelli dominanti che guidano questi risultati:

Equilibrio di coordinazione del veicolo: Con budget computazionali fissi, i sistemi multi-agente soffrono di frammentazione del contesto. Quando il budget di una transazione viene suddiviso tra più agenti, ciascun agente non ha capacità sufficiente per l’orchestrazione degli agenti rispetto a un singolo agente che mantiene un flusso di memoria unificato.

Di conseguenza, in ambienti con un numero elevato di strumenti, con più di 10 strumenti, l’efficienza dei sistemi multi-agente diminuisce drasticamente. Il ricercatore ha scoperto che le attività ad alto carico di agenti subiscono una perdita di produttività da 2 a 6 volte quando si utilizzano sistemi multi-agente rispetto a quelli con agenti singoli. Architetture più semplici diventano paradossalmente più efficaci perché evitano l’onere di coordinamento derivante dalla complessità ambientale.

Saturazione delle abilità: I dati hanno stabilito una soglia empirica per le prestazioni del singolo agente con una precisione di circa il 45%. Una volta che la linea di base del singolo broker supera questo livello, l’aggiunta di più broker generalmente produce rendimenti decrescenti o negativi.

Tuttavia, il coautore Xin Liu, ricercatore di Google e coautore dell’articolo, ha notato una sfumatura cruciale per gli adottanti aziendali. "Le aziende dovrebbero investire in entrambi (sistemi ad agente singolo e multi-agente), ha dichiarato a VentureBeat. “Modelli di base migliori migliorano la baseline, ma per attività con potenziale di scomponibilità e parallelizzazione intrinseca (come il nostro benchmark Finance Broker che offre un miglioramento del +80,9%), il coordinamento multi-agente continua a fornire un valore significativo indipendentemente dalla capacità del modello."

Errore relativo alla topologia: La composizione del team dell’agente determina se i bug verranno corretti o propagati. Dentro "indipendente" Nei sistemi in cui gli agenti lavoravano in parallelo senza comunicare, gli errori sono aumentati di 17,2 volte rispetto al riferimento con un singolo agente. In confronto, le architetture centralizzate hanno aumentato questa amplificazione di un fattore 4,4.

"La differenza fondamentale è che presenta uno speciale collo di bottiglia di convalida che blocca gli errori prima che si propaghino all’output finale." ha detto l’autore principale Yubin Kim, uno studente di dottorato al MIT. "Per contraddizioni logiche, ‘centrale’ riduce il tasso di base… (del) 36,4%… Per errori di omissione del contesto, ‘centrale’ riduce… (del) 66,8%."

Informazioni utili per l’implementazione aziendale

Per sviluppatori e leader aziendali, questi risultati offrono linee guida specifiche per costruire sistemi di intelligenza artificiale più efficienti.

  • "sequenzialità" regola: Analizza la struttura delle dipendenze della tua attività prima di creare un team di agenti. Il più forte predittore del fallimento multiagente sono chiaramente i compiti sequenziali. Se la fase B dipende interamente dalla perfetta esecuzione della fase A, il sistema ad agente singolo sarà probabilmente la scelta migliore. In questi scenari, gli errori continuano a verificarsi anziché scomparire. Al contrario, i sistemi multi-agente offrono grandi vantaggi se l’attività può essere parallela o disaccoppiata (ad esempio, analizzare tre diversi report finanziari contemporaneamente).

  • Non aggiustare ciò che non è rotto: Le aziende dovrebbero sempre confrontare prima un singolo rappresentante. Se un sistema ad agente singolo raggiunge una percentuale di successo superiore al 45% su una particolare attività che non può essere facilmente scomposta, l’aggiunta di più agenti probabilmente ridurrà le prestazioni e aumenterà i costi senza fornire valore.

  • Conta le tue API: Prestare estrema cautela quando si applicano sistemi multi-agente ad attività che richiedono molti strumenti diversi. La suddivisione del budget dei token tra più agenti ne frammenta la memoria e il contesto. "Per le integrazioni con un numero elevato di strumenti che coinvolgono più di 10 strumenti circa, sono probabilmente preferiti i sistemi ad agente singolo." Kim ha detto, riferendo ciò che lo studio ha osservato: "Penalità di efficienza da 2 a 6 volte" per più varianti di agenti in questi scenari.

  • Abbina la topologia alla destinazione: Se è richiesto un sistema multi-agente, la topologia deve corrispondere alla destinazione specifica. Per attività che richiedono elevata accuratezza e precisione, ad esempio finanza o codifica, il coordinamento centrale è superiore perché l’orchestratore fornisce il livello di verifica necessario. Nelle attività che richiedono esplorazione, come la navigazione web dinamica, il coordinamento decentralizzato eccelle consentendo agli agenti di esplorare diversi percorsi simultaneamente.

  • "Regola del 4": Anche se può essere allettante formare grandi sciami, lo studio ha scoperto che le dimensioni effettive dei team sono attualmente limitate a circa tre o quattro agenti. "Il limite di tre o quattro agenti che definiamo è dovuto a vincoli di risorse misurabili." Chi ha detto? Oltre a ciò, il sovraccarico della comunicazione cresce in modo super-lineare (nello specifico, con un esponente di 1.724), il che significa che il costo del coordinamento supera rapidamente il valore del ragionamento aggiunto.

Guardando al futuro: superamento del limite di larghezza di banda

Sebbene le architetture attuali raggiungano un limite per i team di piccole dimensioni, ciò rappresenta probabilmente una limitazione dei protocolli esistenti piuttosto che un limite fondamentale dell’intelligenza artificiale. Il limite effettivo dei sistemi multi-agente deriva dal fatto che gli agenti già comunicano in modo denso e ad alta intensità di risorse.

“Crediamo che questo sia un vincolo esistente, non un tetto permanente”, ha affermato Kim, indicando diverse innovazioni chiave che potrebbero sbloccare il potenziale della collaborazione tra agenzie su larga scala:

Protocolli di comunicazione sparsi: “I nostri dati mostrano che la densità dei messaggi raggiunge circa 0,39 messaggi per ritorno; oltre a ciò, i messaggi aggiuntivi aggiungono ridondanza piuttosto che nuove informazioni. Un routing più intelligente può ridurre il carico”, ha affermato.

Analisi gerarchica: Invece di sciami piatti di 100 agenti, strutture di coordinamento annidate possono dividere il grafico della comunicazione.

Coordinamento asincrono: “Nei nostri esperimenti sono stati utilizzati protocolli sincroni e i progetti asincroni possono ridurre il sovraccarico di blocco”, ha affermato.

Routing consapevole delle competenze: “I nostri esperimenti sull’eterogeneità mostrano che la combinazione strategica delle capacità del modello può migliorare l’efficienza”, ha affermato Kim.

Questo è qualcosa che ci aspetta nel 2026. Fino ad allora, i dati sono chiari per l’architetto aziendale: vincono i team più piccoli, più intelligenti e più strutturati.

Collegamento alla fonte