Uno nuova carta Studiando l’utilizzo degli strumenti negli agenti LLM (Large Language Model), i ricercatori di Google e dell’UC Santa Barbara hanno sviluppato un framework che consente agli agenti di utilizzare gli strumenti e i budget informatici in modo più efficiente. I ricercatori presentano due nuove tecniche: una semplice "Monitoraggio del budget" e un quadro più completo chiamato "Scaling temporale dei test in base al budget." Queste tecniche garantiscono che gli agenti siano chiaramente informati del loro giudizio rimanente e dei permessi di utilizzo del veicolo.

Poiché gli agenti di intelligenza artificiale si affidano alle chiamate degli strumenti per operare nel mondo reale, il ridimensionamento del tempo di test è diventato più una questione di controllo dei costi e della latenza che di modelli più intelligenti.

Per i leader e gli sviluppatori aziendali, le tecniche di scalabilità attenti al budget offrono un modo pratico per implementare agenti IA efficaci senza incontrare costi imprevisti o rendimenti ridotti sulla spesa di elaborazione.

Difficoltà a ridimensionare l’utilizzo del veicolo

Tradizionale testare la scalabilità temporale si concentra sul noleggio di modelli "pensare" più a lungo. Tuttavia, per attività mediate come la navigazione sul Web, il numero di chiamate allo strumento determina direttamente la profondità e la portata della ricerca.

Questa situazione crea un onere operativo significativo per le imprese. "Le chiamate agli strumenti, come la navigazione nella pagina Web, comportano un maggiore consumo di token, un aumento della lunghezza del contesto e l’introduzione di ulteriore latenza," Zifeng Wang e Tengxiao Liu, coautori dello studio, hanno detto a VentureBeat. "Gli stessi strumenti comportano costi API aggiuntivi."

I ricercatori hanno scoperto che dare agli agenti più risorse in termini di tempo per i test non garantisce prestazioni migliori. "In un ruolo di ricerca approfondita, se l’agente non ha una comprensione del budget, spesso entrerà alla cieca." Wang e Liu hanno spiegato. "In qualche modo trova una pista rilevante, poi indaga chiamando 10 o 20 veicoli, solo per rendersi conto che l’intera strada è un vicolo cieco."

Ottimizzazione delle risorse con Budget Tracker

Per valutare come ottimizzare i budget per l’utilizzo del veicolo, i ricercatori hanno prima provato un approccio semplice. "Monitoraggio del budget." Questo modulo funge da plug-in che fornisce un segnale continuo di disponibilità delle risorse all’agente e consente l’utilizzo dello strumento in base al budget.

Il team ha suggerito che: "Fornire segnali di budget espliciti consente al modello di internalizzare i vincoli delle risorse e adattare la propria strategia senza richiedere ulteriore formazione."

Budget Tracker funziona interamente a livello immediato, facilitando l’implementazione. (Questo documento fornisce i dettagli completi delle istruzioni utilizzate per Budget Tracker, facilitandone l’implementazione.)

Nell’app di Google, il tracker fornisce una breve guida politica che spiega i regimi di budget e le raccomandazioni pertinenti per l’utilizzo degli strumenti. In ogni fase del processo di risposta, Budget Tracker garantisce che l’agente sia esplicitamente informato sul consumo delle risorse e sul budget rimanente, consentendogli di condizionare i successivi passaggi di ragionamento in base allo stato aggiornato delle risorse.

Per testarlo, i ricercatori hanno sperimentato due paradigmi: il ridimensionamento sequenziale, in cui il modello migliora in modo iterativo il suo output, e il ridimensionamento parallelo, in cui vengono eseguite e raccolte più esecuzioni indipendenti. Hanno sperimentato agenti di ricerca dotati di strumenti di ricerca e navigazione che seguono un ciclo in stile ReAct. ReAct (Ragionamento + Agire) è un metodo popolare in cui il modello alterna il pensiero interno e le azioni esterne. Per tracciare un reale trend di scalabilità costi-prestazioni, hanno sviluppato una metrica di costo unificata che tiene conto congiuntamente dei costi sia del consumo interno di token che delle interazioni con strumenti esterni.

Hanno testato Budget Tracker su tre set di dati QA di ricerca di informazioni (inclusi SfogliaComp e HLE-Search) che richiedevano una ricerca esterna, utilizzando i seguenti modelli. Gemelli 2.5 ProGemini 2.5 Flash e Claude Sonetto 4. Gli esperimenti dimostrano che questo semplice plugin migliora le prestazioni con vari vincoli di budget.

"L’aggiunta di Budget Tracker consente di ottenere una precisione comparabile utilizzando il 40,4% in meno di ricerche di ricerca, il 19,9% in meno di ricerche di navigazione e riducendo i costi complessivi del 31,3%." hanno detto gli autori a VentureBeat. Infine, Budget Tracker continua a ridimensionarsi all’aumentare del budget, mentre ReAct piatto si stabilizza dopo una certa soglia.

BATS: un framework completo per una scalabilità consapevole del budget

Per migliorare ulteriormente l’ottimizzazione delle risorse di utilizzo degli agenti, i ricercatori hanno introdotto il Budget-Aware Test Time Scaling (BATS), un framework progettato per massimizzare le prestazioni degli agenti con qualsiasi budget. BATS mantiene un segnale continuo delle risorse rimanenti e utilizza queste informazioni per adattare dinamicamente il comportamento dell’agente nel formulare la sua risposta.

BATS utilizza più moduli per orchestrare le azioni dell’agente. Un modulo di pianificazione adatta passo dopo passo l’impegno per adattarlo al budget disponibile, mentre un modulo di verifica decide se è possibile raggiungerlo. "sei più profondo" un indizio speranzoso o "perno" Percorsi alternativi a seconda della disponibilità delle risorse.

Considerando la domanda di ricerca delle informazioni e il budget del set di strumenti, BATS inizia utilizzando il modulo di pianificazione per formulare un piano d’azione strutturato e decidere quali strumenti utilizzare. Quando vengono invocati strumenti, le loro risposte vengono aggiunte alla linea di ragionamento per fornire contesto con nuove prove. Quando l’agente propone una risposta candidata, il modulo di verifica la verifica e decide se continuare la serie attuale o avviare una nuova iniziativa con il budget rimanente.

Il processo iterativo termina all’esaurimento delle risorse preventivate, a quel punto il Master, in qualità di membro della giuria, seleziona la risposta migliore tra tutte le risposte verificate. Durante l’esecuzione, Budget Tracker aggiorna continuamente sia l’utilizzo delle risorse che il budget rimanente ad ogni iterazione.

I ricercatori hanno testato BATS rispetto ai valori di riferimento, incluso lo standard ReAct e diversi agenti basati sulla formazione, sui benchmark SfogliaComp, SfogliaComp-ZH e HLE-Search. I loro esperimenti mostrano che BATS raggiunge prestazioni più elevate rispetto ai metodi concorrenti utilizzando meno chiamate agli strumenti e sostenendo costi complessivi inferiori. Utilizzando Gemini 2.5 Pro come struttura portante, BATS ha ottenuto una precisione del 24,6% su BrowComp rispetto al 12,6% di ReAct standard e una precisione del 27,0% su HLE-Search rispetto al 20,5% di ReAct.

BATS non solo aumenta l’efficienza in presenza di vincoli di budget, ma fornisce anche un migliore equilibrio costi-prestazioni. Ad esempio, sul set di dati BrowComp, BATS ha ottenuto una maggiore precisione a un costo di circa 23 centesimi rispetto alla linea di base con ridimensionamento parallelo, che richiedeva un costo di oltre 50 centesimi per ottenere un risultato simile.

Secondo gli autori, questa efficienza rende possibili flussi di lavoro precedentemente costosi. "Ciò sblocca una serie di applicazioni aziendali a lungo termine e ad alta intensità di dati, come la complessa manutenzione di basi di codice, indagini approfondite, ricerche sul panorama competitivo, controlli di conformità e analisi di documenti in più fasi." hanno detto.

Poiché le organizzazioni cercano di implementare agenti in grado di gestire le proprie risorse, la capacità di bilanciare precisione e costi diventerà un requisito di progettazione fondamentale.

"Crediamo che il rapporto tra ragionamento ed economia diventerà inscindibile," Wang e Liu hanno detto. "Deve ragionare sul valore futuro (modelli)."

Collegamento alla fonte