
Doveva essere il 2025 anno "agenti di intelligenza artificiale," Secondo il CEO di Nvidia Jensen Huang e altro personale del settore AI. E per molti aspetti, OpenAI, numerosi fornitori leader di modelli di intelligenza artificiale come Google, e persino rivali cinesi come Alibaba, stanno rilasciando modelli o applicazioni di intelligenza artificiale ottimizzati progettati per concentrarsi su una serie ristretta di attività, come la ricerca sul web e la scrittura di report.
Ma il futuro degli agenti IA affidabili e ad alte prestazioni deve affrontare un grosso ostacolo: garantire che rimangano attivi quando l’attività consiste in più passaggi. Benchmark di terze parti Dimostra che anche i modelli di intelligenza artificiale più potenti hanno tassi di fallimento più elevati quanto più passaggi eseguono per completare un’attività e quanto più tempo dedicano a tale attività (in eccesso di ore).
UN. Nuovo quadro accademico chiamato EAGLET Propone un metodo pratico ed efficace per migliorare le prestazioni delle attività a lungo termine negli agenti basati su LLM senza la necessità di etichettatura manuale dei dati o di riqualificazione.
È stato sviluppato da ricercatori della Tsinghua University, dell’Università di Pechino, di DeepLang AI e dell’Università dell’Illinois Urbana-Champaign. EAGLET offre: "pianificatore globale" può essere integrato nei flussi di lavoro degli agenti esistenti per ridurre le allucinazioni e migliorare l’efficienza delle attività.
EAGLET è un modello linguistico a grana fine che interpreta le istruzioni delle attività tipicamente fornite dall’utente o dall’ambiente operativo dell’agente e crea un piano di alto livello per l’agente (supportato dal suo LLM). Non interviene durante l’esecuzione, ma la sua guida anticipata aiuta a ridurre gli errori di pianificazione e a migliorare i tassi di completamento delle attività.
Affrontare il problema della pianificazione negli agenti a lungo orizzonte
Molti agenti con sede in LLM hanno difficoltà con compiti a lungo termine perché si affidano a un ragionamento reattivo e passo passo. Questo approccio porta spesso a comportamenti basati su tentativi ed errori, allucinazioni di pianificazione e traiettorie inefficienti.
EAGLET è uno strumento per superare questa limitazione. modulo di pianificazione globale Funziona insieme all’agente esecutivo.
Separando la pianificazione e la generazione di azioni anziché fonderle in un unico modello, EAGLET fornisce strategie più coerenti a livello di attività.
Pipeline di formazione in due fasi senza spiegazioni umane
Il pianificatore di EAGLET viene addestrato utilizzando un processo in due fasi che non richiede piani o spiegazioni scritte da persone.
La prima fase prevede la creazione di schemi sintetici con LLM ad alta capacità come GPT-5 e DeepSeek-V3.1-Think.
Questi piani vengono poi filtrati utilizzando una nuova strategia chiamata filtraggio del consenso omologo, che preserva solo quelli che migliorano le prestazioni delle attività sia per gli agenti esecutori esperti che per quelli alle prime armi.
Nella seconda fase, il processo di apprendimento per rinforzo basato su regole perfeziona ulteriormente lo scheduler utilizzando una funzione di ricompensa appositamente progettata per valutare in che misura ciascun piano aiuta più agenti ad avere successo.
Presentazione del Practitioner Acquisition Award (ECGR)
Una delle innovazioni chiave di EAGLET è l’Executive Talent Acquisition Award (ECGR).
Questa ricompensa misura il valore del piano creato verificando se aiuta gli agenti sia ad alta che a bassa capacità a completare le attività con maggiore successo e con meno passaggi.
Include anche un fattore di decadimento per favorire orbite di missione più brevi ed efficienti. Questo approccio evita di premiare eccessivamente i piani che sono utili solo agli agenti attualmente competenti e incoraggia una guida di pianificazione più generalizzabile.
Compatibile con veicoli e modelli esistenti
Il pianificatore EAGLET è progettato per essere modulare e "collega e usa," Ciò significa che può essere aggiunto alle linee di agenti esistenti senza la necessità di riqualificazione del professionista.
Planner ha migliorato le prestazioni su diversi modelli base nei benchmark, tra cui GPT-4.1, GPT-5, Llama-3.1 e Qwen2.5.
Si è dimostrato efficace anche indipendentemente dalla strategia di routing, funzionando bene con approcci come Reflexion e con i prompt standard in stile ReAct.
Prestazioni all’avanguardia nei benchmark
EAGLET è stato testato su tre parametri di riferimento comunemente utilizzati per le attività degli agenti a lungo termine: ScienceWorld, che simula esperimenti scientifici in un ambiente di laboratorio basato su testo; ALFWorld, che incarica gli agenti di completare le attività domestiche attraverso il linguaggio naturale in un ambiente domestico simulato; e WebShop, che valuta il comportamento diretto agli obiettivi in un’interfaccia di shopping online realistica.
In tutti e tre, gli agenti di implementazione dotati di EAGLET hanno sovraperformato le loro controparti non di pianificazione e altre linee di base di pianificazione, tra cui MPO e KnowAgent.
Negli esperimenti con il modello open source Llama-3.1-8B-Instruct, EAGLET ha migliorato le prestazioni medie da 39,5 a 59,4, con un guadagno di +19,9 punti tra le attività.
Ha migliorato le prestazioni da 42,2 a 61,6 negli scenari invisibili di ScienceWorld.
Negli scenari visti in ALFWorld, EAGLET ha migliorato i risultati da 22,9 a 54,3, con un aumento delle prestazioni di oltre 2,3 volte.
Guadagni ancora più consistenti sono stati osservati con i modelli più capaci.
Ad esempio, il punteggio medio di GPT-4.1 con EAGLET è aumentato da 75,5 a 82,2 e GPT-5 è aumentato da 84,5 a 88,1 nonostante avesse già ottime prestazioni.
In alcuni benchmark, i guadagni in termini di prestazioni sono stati fino a +11,8 punti, come quando si combina EAGLET con il metodo esecutore ETO su compiti invisibili di ALFWorld.
Rispetto ad altre linee di base di pianificazione come MPO, EAGLET ha costantemente fornito tassi di completamento delle attività più elevati. Ad esempio, nelle attività invisibili di ALFWorld con GPT-4.1, MPO ha ottenuto 79,1 punti, mentre EAGLET ha ottenuto 83,6 punti; questo era un vantaggio di +4,5 punti.
Inoltre, lo studio riporta che gli agenti che utilizzano EAGLET completano le attività in media in meno passaggi. Con GPT-4.1 come esecutore, il numero medio di passaggi è diminuito da 13,0 (senza scheduler) a 11,1 (EAGLET). Con GPT-5, è sceso da 11,4 a 9,4, supportando l’affermazione che l’efficienza di esecuzione è aumentata.
Guadagno di efficienza nella formazione e nella pratica
Rispetto ai metodi basati su RL come GiGPO, che possono richiedere centinaia di iterazioni di formazione, EAGLET ha ottenuto risultati migliori o comparabili con circa un ottavo dello sforzo di formazione.
Questa efficienza si riflette anche sull’esecuzione: gli agenti che utilizzano EAGLET generalmente necessitano di meno passaggi per completare le attività. Ciò significa tempi di inferenza e costi computazionali ridotti negli scenari di produzione.
Nessun codice pubblico, ancora
Al momento del rilascio inviato ad arXiv, gli autori non hanno pubblicato un’implementazione open source di EAGLET. Non è chiaro se e quando il codice verrà rilasciato, con quale licenza verrà rilasciato o come sarà protetto; ciò potrebbe limitare l’utilità a breve termine del quadro per l’implementazione aziendale.
VentureBeat ha contattato gli autori per chiarire questi punti e aggiornerà questo articolo quando riceveremo feedback.
Continuano le domande sulla distribuzione aziendale
Anche se lo scheduler è descritto come plug-and-play, non è chiaro se EAGLET possa essere facilmente integrato in popolari framework di broker aziendali come LangChain o AutoGen, o se richieda uno stack personalizzato per supportare la separazione del piano-esecuzione.
Allo stesso modo, la configurazione della formazione sfrutta più agenti esecutori, che potrebbero essere difficili da replicare in ambienti aziendali con accesso limitato ai modelli. VentureBeat ha chiesto ai ricercatori se il metodo di filtraggio del consenso omologo potesse essere adattato per i team con accesso a un solo modello esecutivo o a risorse informatiche limitate.
Gli autori di EAGLET segnalano il successo in tutti i tipi e dimensioni del modello, ma non è ancora noto quale sia la scala minima del modello realizzabile per l’implementazione pratica. Ad esempio, i team aziendali possono utilizzare in modo efficace lo scheduler con modelli aperti con parametri inferiori a 10B in ambienti sensibili alla latenza? Inoltre, il framework potrebbe offrire valore specifico per il settore in aree quali l’assistenza clienti o l’automazione IT, anche se non è ancora noto con quanta facilità lo scheduler possa essere modificato o personalizzato per tali settori verticali.
Pianificazione in tempo reale e predefinita
Un’altra questione aperta è come implementare al meglio EAGLET nella pratica. Il pianificatore dovrebbe lavorare in tempo reale con gli esecutori in un ciclo, o dovrebbe essere utilizzato offline per pregenerare piani globali per tipi di attività noti? Ciascun approccio ha conseguenze in termini di latenza, costi e complessità operativa. VentureBeat ha posto questa domanda agli autori e riferirà su ogni informazione che emergerà.
Compromessi strategici per i team aziendali
Per i leader tecnici delle aziende di medie e grandi dimensioni, EAGLET rappresenta una prova convincente del concetto per migliorare l’affidabilità e la produttività dei rappresentanti LLM. Ma senza strumenti disponibili al pubblico o linee guida di implementazione, il quadro presenta ancora una decisione “fai o aspetta”. Le aziende devono valutare i potenziali vantaggi in termini di prestazioni ed efficienza delle attività rispetto ai costi derivanti dalla replica o dall’approssimazione del processo di formazione interno.
Potenziali casi d’uso nelle impostazioni aziendali
Per le organizzazioni che sviluppano sistemi di intelligenza artificiale per agenzie, soprattutto in ambienti che richiedono una pianificazione passo passo, come l’automazione IT, l’assistenza clienti o le interazioni online, EAGLET fornisce un modello su come incorporare la pianificazione senza riqualificazione. La sua capacità di guidare modelli sia open che closed source, combinata con il suo metodo di formazione efficace, può renderlo un punto di partenza interessante per i team che desiderano migliorare le prestazioni degli agenti con un sovraccarico minimo.














