ricercatori Università dell’Illinois a Urbana-Champaign E Ricerca sull’intelligenza artificiale di Google Cloud Hanno sviluppato una struttura che consente agli agenti del modello linguistico di grandi dimensioni (LLM) di organizzare le loro esperienze in una banca di memoria, aiutandoli a migliorare nel tempo in compiti complessi.

chiamato cornice Banca ContabileDistilla “strategie di ragionamento generalizzabili” dai tentativi riusciti e falliti di un agente di risolvere i problemi. L’agente utilizza quindi questa memoria durante l’inferenza per evitare di ripetere gli errori del passato e prendere decisioni migliori di fronte a nuovi problemi. I ricercatori dimostrano che se combinato con: testare le tecniche di scalabilità temporaleLaddove un agente effettua più tentativi per risolvere un problema, ReasoningBank migliora significativamente le prestazioni e l’efficienza degli agenti LLM.

I loro risultati mostrano che ReasoningBank supera costantemente i classici meccanismi di memoria nei benchmark di web crawling e ingegneria del software e offre un percorso pratico per costruire agenti IA più adattabili e affidabili per le applicazioni aziendali.

Difficoltà di memoria dell’agenzia LLM

Poiché gli agenti LLM vengono distribuiti in applicazioni a lunga esecuzione, incontrano un flusso costante di attività. Uno dei principali limiti degli attuali rappresentanti LLM è la loro incapacità di imparare da questa esperienza accumulata. Affrontando ciascun compito individualmente, inevitabilmente ripetono gli errori del passato, ignorano preziose informazioni provenienti dai problemi correlati e non riescono a sviluppare competenze che li renderanno più capaci nel tempo.

La soluzione a questa limitazione è fornire agli agenti una qualche forma di memoria. Gli sforzi precedenti per dotare gli agenti di memoria si sono concentrati sulla memorizzazione delle interazioni passate per il riutilizzo organizzando le informazioni in una varietà di forme, dal testo semplice alla grafica strutturata. Tuttavia, questi approcci sono spesso inadeguati. Molti utilizzano registri di interazione grezzi o conservano solo esempi di attività riuscite. Ciò significa che non riescono ad analizzare modelli di ragionamento trasferibili di livello superiore e, cosa più importante, non estraggono e utilizzano informazioni preziose dai fallimenti dell’agente. Come notano i ricercatori nel loro articolo, “gli attuali progetti di memoria sono spesso limitati alla tenuta passiva dei registri piuttosto che fornire una guida attuabile e generalizzabile per le decisioni future”.

Come funziona ReasoningBank?

ReasoningBank è un framework di memoria progettato per superare queste limitazioni. La sua idea principale è trasformare strategie utili e spunti di ragionamento provenienti da esperienze passate in elementi di memoria strutturati che possono essere archiviati e riutilizzati.

Ciò segna un cambiamento fondamentale nel modo in cui lavorano gli intermediari, secondo Jun Yan, ricercatore presso Google e coautore dell’articolo. "Gli agenti tradizionali operano in modo statico; Ogni attività viene elaborata separatamente." Yan ha spiegato. "ReasoningBank cambia questa situazione trasformando ogni esperienza di attività (riuscita o infruttuosa) in una memoria di ragionamento strutturata e riutilizzabile. Di conseguenza, l’agente non inizia da zero con ogni cliente; ricorda e adatta strategie comprovate da situazioni simili del passato."

Il quadro elabora sia le esperienze di successo che quelle infruttuose e le trasforma in una raccolta di strategie utili e lezioni preventive. L’agente valuta il successo e il fallimento come segue: Master come giudice per eliminare la necessità di tagging umano.

Yan offre un esempio pratico di questo processo. Un rappresentante incaricato di trovare cuffie Sony potrebbe fallire perché la sua query di ricerca ampia restituisce più di 4.000 prodotti irrilevanti. "ReasoningBank cercherà innanzitutto di capire perché questo approccio fallisce." Yan ha detto. "Costituirà quindi il nucleo di strategie come “l’ottimizzazione della query di ricerca” e “limitazione dei prodotti in base al filtraggio delle categorie”. Queste strategie saranno estremamente utili per portare a termine con successo compiti simili in futuro."

Il processo funziona in un ciclo chiuso. Quando un agente affronta un nuovo compito, utilizza una ricerca basata sull’embedding per recuperare i ricordi rilevanti dalla ReasoningBank per guidare le sue azioni. Queste memorie forniscono all’agente il contesto per prendere decisioni aggiungendole al prompt del sistema. Una volta completata l’attività, la struttura crea nuovi elementi di memoria per ottenere informazioni dai successi e dai fallimenti. Queste nuove informazioni vengono quindi analizzate, analizzate e integrate in ReasoningBank; consentendo così all’agente di sviluppare e migliorare continuamente le proprie capacità.

Rafforzare la memoria con il ridimensionamento

I ricercatori hanno trovato una forte sinergia tra memoria e memoria. testare la scalabilità temporale. Il classico ridimensionamento temporale dei test prevede la generazione di più risposte indipendenti alla stessa domanda, ma i ricercatori sostengono che questa “forma vanigliata non è ottimale perché non sfrutta il segnale di contrasto naturale che risulta da ricerche ridondanti sullo stesso problema”.

Per risolvere questo problema, propongono Memory-Aware Test Time Scaling (MaTTS), che integra lo scaling con ReasoningBank. MaTTS è disponibile in due formati. Nello “scaling parallelo”, il sistema crea più traiettorie per la stessa query, quindi le confronta e le contrappone per identificare modelli di ragionamento coerenti. Nel ridimensionamento sequenziale, l’agente affina iterativamente il proprio ragionamento su una singola prova, con note intermedie e correzioni che fungono anche da preziosi segnali di memoria.

Ciò crea un ciclo virtuoso: la memoria disponibile nella ReasoningBank indirizza l’agente verso soluzioni più promettenti, mentre le diverse esperienze create attraverso il ridimensionamento consentono all’agente di creare ricordi di qualità superiore da archiviare nella ReasoningBank.

“Questo ciclo di feedback positivo posiziona il ridimensionamento dell’esperienza basato sulla memoria come una nuova dimensione di ridimensionamento per gli agenti”, scrivono i ricercatori.

RagionamentoBanca in azione

I ricercatori hanno testato la loro struttura rete (navigazione web) e Approvato SWE-Bench (ingegneria del software) utilizzano modelli come Gemini 2.5 Pro di Google e Claude 3.7 Sonnet di Anthropic. Hanno confrontato ReasoningBank con linee di base, inclusi agenti senza memoria e agenti che utilizzano strutture di memoria basate sulla traiettoria o sul flusso di lavoro.

I risultati mostrano che ReasoningBank supera costantemente queste linee di base su tutti i set di dati e backbone LLM. Su WebArena il tasso di successo complessivo è migliorato fino all’8,3% rispetto a un agente senza memoria. Inoltre, è stato generalizzato meglio alle attività più difficili e interdominio, riducendo al contempo il numero di passaggi di interazione necessari per completare le attività. Sia il ridimensionamento parallelo che quello sequenziale hanno migliorato ulteriormente le prestazioni se combinati con MaTTS, superando costantemente il ridimensionamento temporale dei test standard.

Questo aumento di efficienza ha un impatto diretto sui costi operativi. Yan fa riferimento a una situazione in cui un agente senza memoria ha eseguito otto passaggi di tentativi ed errori solo per trovare il giusto filtro di prodotto su un sito web. "Questi costi per tentativi ed errori possono essere evitati sfruttando le informazioni pertinenti di ReasoningBank." ha affermato. "In questo caso, risparmiamo quasi il doppio dei costi operativi," Ciò migliora anche l’esperienza dell’utente risolvendo i problemi più rapidamente.

ReasoningBank può aiutare a sviluppare agenti economicamente vantaggiosi per le aziende che possono imparare dall’esperienza e adattarsi nel tempo a flussi di lavoro e aree complessi come lo sviluppo di software, l’assistenza clienti e l’analisi dei dati. Come conclude l’articolo, “I nostri risultati suggeriscono un percorso pratico per costruire agenti che siano adattabili e che apprendano per tutta la vita”.

Yan ha confermato che le sue scoperte indicano il futuro di una vera intelligenza compositiva. Ad esempio, un agente di codifica può apprendere competenze separate, come l’integrazione API e la gestione del database, da attività separate. "Nel tempo, queste capacità modulari diventano elementi costitutivi che l’agente può ricombinare in modo flessibile per risolvere compiti più complessi." ha affermato, proponendo un futuro in cui gli agenti possano mettere insieme autonomamente le proprie conoscenze per gestire interi flussi di lavoro con una supervisione umana minima.

Collegamento alla fonte