I team aziendali che costruiscono sistemi di intelligenza artificiale multi-agente potrebbero pagare premi informatici per guadagni che non possono essere raggiunti a parità di condizioni di budget. Una ricerca della Nuova Stanford University ha scoperto che i sistemi ad agente singolo corrispondono o superano le architetture multi-agente in compiti di ragionamento complessi quando ad entrambi viene assegnato lo stesso budget di token di pensiero.
Tuttavia, i sistemi multi-agente introducono un ulteriore sovraccarico computazionale. Poiché in genere utilizzano tracce di ragionamento più lunghe e interazioni multiple, spesso non è chiaro se i guadagni riportati siano dovuti a vantaggi architetturali o semplicemente al consumo di più risorse.
Per determinare il vero driver delle prestazioni, i ricercatori dell’Università di Stanford ha confrontato i sistemi ad agente singolo con le architetture multi-agente a parità di condizioni in complessi compiti di ragionamento multi-hop. "gettone pensante" budget.
I loro esperimenti mostrano che nella maggior parte dei casi, i sistemi ad agente singolo corrispondono o superano i sistemi multi-agente a parità di calcolo. I sistemi multi-agente ottengono un vantaggio competitivo quando il contenuto di un singolo agente è troppo lungo o danneggiato.
In pratica, ciò significa che un modello ad agente singolo con un budget di riflessione sufficiente può fornire un ragionamento multipunto più efficiente, affidabile ed economico. I team tecnici dovrebbero riservare i sistemi multi-agente agli scenari in cui i singoli agenti raggiungono il proprio limite prestazionale.
Comprendere la distinzione tra agenti singoli e multipli
Strutture multi-agente come agenti di pianificazione, sistemi di gioco di ruolo o sciami di discussione risolvono il problema consentendo a più modelli di operare in contesti parziali. Questi componenti comunicano tra loro trasmettendo le loro risposte.
Sebbene le soluzioni multi-agente mostrino forti prestazioni empiriche, confrontarle con i valori di riferimento del singolo agente è spesso una misura imprecisa. I confronti sono in gran parte confusi a causa delle differenze nel calcolo del tempo di test. Le configurazioni multi-broker richiedono più interazioni con i broker e creano tracce di ragionamento più lunghe, il che significa che consumano molti più token.
ddDi conseguenza, quando un sistema multi-agente segnala una maggiore precisione, è difficile determinare se i vantaggi sono dovuti a una migliore progettazione dell’architettura o a spese di elaborazione aggiuntive.
Ricerche recenti mostrano che le strategie elaborate multi-broker spesso sottoperformano rispetto ai solidi fondamentali di un singolo broker quando il budget di trading è fisso. Ma questi sono spesso confronti molto ampi e non tengono conto di sfumature come le diverse architetture multi-agente o le differenze tra token di prompt e di ragionamento.
“Il punto chiave del nostro articolo è che la maggior parte dei confronti tra sistemi ad agente singolo (SAS) e sistemi multi-agente (MAS) non sono mele a mele”, hanno detto a VentureBeat gli autori dell’articolo Dat Tran e Douwe Kiela. “Il MAS spesso ottiene un calcolo più efficiente del tempo di prova attraverso chiamate aggiuntive, tracce più lunghe o più passaggi di coordinamento.”
Rivisitare il problema delle molteplici agenzie con budget limitati
Per creare un confronto equo, i ricercatori di Stanford hanno fissato un budget rigoroso per i “gettoni pensanti”. Questa metrica controlla solo il numero totale di token utilizzati per il ragionamento intermedio, escludendo il primo prompt e l’output finale.
Lo studio ha valutato i sistemi ad agente singolo e multi-agente in compiti di ragionamento multi-hop, ovvero domande che richiedono la combinazione di più informazioni disparate per arrivare a una risposta.
Durante i loro esperimenti, i ricercatori hanno notato che le configurazioni ad agente singolo a volte interrompevano prematuramente il ragionamento interno, lasciando inutilizzato il budget di elaborazione disponibile. Per contrastare questo problema, hanno sviluppato una tecnica chiamata SAS-L (sistema ad agente singolo con considerazione persistente).
Invece di passare all’orchestrazione multi-agente quando un modello si arrende prematuramente, i ricercatori raccomandano un cambiamento semplice, rapido ed economico.
"L’idea ingegneristica è semplice," Tran e Kiela hanno detto. "Innanzitutto, ristrutturare il prompt del singolo agente in modo che il modello sia esplicitamente incoraggiato a spendere il budget di ragionamento disponibile nell’analisi pre-risposta."
Gli sviluppatori possono sfruttare i vantaggi della collaborazione in una configurazione ad agente singolo istruendo il modello a identificare esplicitamente le incertezze, elencare i commenti dei candidati e testare le alternative prima di stabilire una risposta finale.
I risultati dei loro esperimenti confermano che un singolo agente è l’architettura predefinita più potente per attività di ragionamento multi-hop. Produce risposte con la massima precisione consumando meno gettoni di ragionamento. Se abbinata a determinati modelli, come il Gemini 2.5 di Google, la variante più orientata al lungo termine produce prestazioni complessive ancora migliori.
I ricercatori si affidano a un concetto chiamato “Processing Inequality” per spiegare perché un singolo agente ha prestazioni migliori rispetto alla mandria. I framework multi-agente introducono colli di bottiglia nella comunicazione intrinseci. Ogni volta che le informazioni vengono riepilogate e distribuite tra diversi agenti, esiste il rischio di perdita di dati.
Al contrario, il ragionamento di un singolo agente all’interno di un contesto continuo evita questa frammentazione. Preserva l’accesso alla rappresentazione più ricca possibile del compito ed è quindi più efficiente dal punto di vista informativo con un budget fisso.
Gli autori notano inoltre che le aziende spesso trascurano i costi secondari dei sistemi multi-agente.
"Ciò che le aziende spesso sottovalutano è che l’orchestrazione non è gratuita." hanno detto. "Ogni intermediario aggiuntivo introduce un sovraccarico di comunicazione, più testo intermedio, più opportunità di riepilogo con perdite e più posti in cui incorporare gli errori."
D’altra parte, hanno scoperto che l’orchestrazione multi-agente è superiore quando l’ambiente di un singolo agente diventa disperso. Se un’applicazione aziendale deve elaborare contesti altamente degradati come dati rumorosi, input lunghi pieni di distrazioni o informazioni corrotte, un singolo agente avrà difficoltà. In questi scenari, il filtraggio strutturato, l’analisi e la verifica di un sistema multi-agente possono recuperare in modo più affidabile le informazioni rilevanti.
Lo studio mette in guardia anche sulle trappole nascoste della valutazione che gonfiano falsamente le prestazioni multi-agente. Affidarsi esclusivamente al conteggio dei token riportato dall’API distorce notevolmente la quantità di calcolo effettivamente consumata da un’architettura. I ricercatori hanno scoperto questi artefatti contabili durante il test di modelli come Gemini 2.5, dimostrando che questo è un problema attivo per le applicazioni aziendali odierne.
"Per i modelli API la situazione è più complicata perché la contabilità di bilancio potrebbe non essere trasparente." hanno detto gli scrittori. Per valutare in modo affidabile le architetture, consigliano agli sviluppatori: "Registra tutto, misura i token di ragionamento visibili ove possibile, utilizza i conteggi dei token di ragionamento segnalati dal provider quando esposti e trattali con cautela."
Cosa significa per gli sviluppatori?
Se un sistema ad agente singolo può eguagliare le prestazioni di più agenti con budget di pari ragionamento, vince in termini di costo totale di proprietà offrendo meno chiamate di modello, latenza inferiore e debug più semplice. Tran e Kiela, senza questa fondazione, "alcune aziende potrebbero pagare una grossa “tassa gregge” per architetture il cui apparente vantaggio deriva dalla spesa di più calcoli piuttosto che da ragionamenti più efficienti."
Un altro modo di considerare il confine decisionale non è quanto sia complesso il compito complessivo, ma dove si trova esattamente il collo di bottiglia.
"Se la profondità del ragionamento è principalmente una preoccupazione, il SAS è solitamente sufficiente. Il MAS diventa più difendibile quando il contesto è frammentato o distorto," Ha detto Tran.
I team di ingegneri dovrebbero attenersi a un singolo agente quando un’attività può essere eseguita in un’unica finestra di contesto coerente. I sistemi multi-agente diventano necessari quando un’applicazione elabora contesti altamente degradati.
Guardando al futuro, i sistemi multi-agente non scompariranno, ma il loro ruolo evolverà man mano che i modelli di confine svilupperanno le loro capacità di ragionamento interno.
"La conclusione principale del nostro articolo è che l’architettura multi-agente dovrebbe essere trattata come una scelta ingegneristica mirata per colli di bottiglia specifici, non come un presupposto predefinito secondo cui più agenti significano automaticamente una migliore intelligenza." Ha detto Tran.














