Una nuova tecnica sviluppata dai ricercatori dell’Università Jiao Tong di Shanghai e di altre istituzioni consente ai rappresentanti di grandi modelli linguistici di apprendere nuove competenze senza la necessità di costose modifiche.
I ricercatori suggeriscono MemRLUna struttura che offre agli agenti la capacità di sviluppare la memoria episodica, la capacità di recuperare esperienze passate per creare soluzioni a compiti invisibili. MemRL consente agli agenti di utilizzare il feedback ambientale per migliorare continuamente le proprie strategie di risoluzione dei problemi.
MemRL fa parte di un’iniziativa più ampia nella comunità di ricerca. apprendimento continuo Funzionalità per applicazioni IA. Negli esperimenti sui principali benchmark del settore, il framework ha sovraperformato altri valori di base come RAG e altre tecniche di orchestrazione della memoria, soprattutto in ambienti complessi che richiedono esplorazione e sperimentazione. Ciò suggerisce che MemRL potrebbe essere un componente fondamentale per la creazione di applicazioni IA che devono funzionare in ambienti dinamici del mondo reale in cui requisiti e compiti cambiano costantemente.
Dilemma stabilità-plasticità
Una delle principali sfide nell’implementazione delle applicazioni agentiche è l’adattamento del modello di base a nuove conoscenze e compiti dopo la fase di formazione iniziale. Gli approcci esistenti generalmente rientrano in due categorie: approcci parametrici, ad es. regolazione finee approcci non parametrici come RAG. Ma entrambi comportano compromessi significativi.
Sebbene la messa a punto sia efficace nell’elaborazione di nuove informazioni, è computazionalmente costosa e lenta. Ancora più importante, spesso porta a: disastro, non dimenticareSi tratta di un fenomeno in cui le informazioni appena acquisite vengono sovrascritte con dati precedentemente appresi e causano una diminuzione delle prestazioni complessive del modello.
Al contrario, i metodi non parametrici come RAG sono essenzialmente passivi; recuperano informazioni basandosi esclusivamente sulla somiglianza semantica, come gli incorporamenti di vettori, senza valutare l’effettiva utilità delle informazioni per la query di input. Questo approccio presuppone: "simile significa utile," spesso imperfetto in compiti di ragionamento complessi.
I ricercatori suggeriscono che l’intelligenza umana risolve questo problema mantenendo “il delicato equilibrio tra la stabilità del ragionamento cognitivo e la flessibilità della memoria episodica”. Nel cervello umano, il ragionamento stabile (associato alla corteccia) è separato dalla memoria episodica dinamica. Ciò consente alle persone di adattarsi a nuovi compiti. "ricablare i circuiti neurali" (più o meno equivalente alla messa a punto del modello).
All’interno del framework MemRL
Ispirato dall’uso umano della memoria episodica e del ragionamento cognitivo, MemRL è progettato per consentire a un agente di migliorare continuamente le proprie prestazioni dopo l’implementazione senza compromettere la stabilità della colonna vertebrale LLM. Invece di modificare i parametri del modello, la struttura sposta il meccanismo di adattamento su una struttura di memoria esterna e autoevolutiva.
In questa architettura i parametri del LLM rimangono completamente congelati. Il modello si muove in modo efficace "corteccia," è responsabile del ragionamento generale, della logica e della generazione del codice, ma non è responsabile della memorizzazione di successi o fallimenti specifici riscontrati dopo la distribuzione. Questa struttura garantisce un ragionamento cognitivo stabile e previene l’oblio catastrofico.
Per ottenere l’adattamento, MemRL mantiene una componente di memoria episodica dinamica. MemRL utilizza la memoria invece di archiviare documenti di testo semplice e valori di incorporamento statici come è comune in RAG. "scopo-esperienza-utilità" terzine. Questi includono la query dell’utente (obiettivo), la soluzione specifica o l’azione intrapresa (esperienza) e un punteggio (utilità) noto come valore Q, che rappresenta il successo di quella particolare esperienza in passato.
Ciò che è di vitale importanza per gli architetti aziendali è che questa nuova struttura dati non richieda lo smantellamento dell’infrastruttura esistente. "MemRL è progettato per sostituire il livello di accesso negli attuali stack tecnologici ed è compatibile con una varietà di database vettoriali." Muning Wen, coautore dell’articolo e dottorando presso l’Università Jiao Tong di Shanghai, ha dichiarato a VentureBeat: "L’esistenza e l’aggiornamento di ‘Q-Value’ servono esclusivamente per una migliore valutazione e gestione dei dati dinamici… ed è indipendente dal formato di archiviazione."
Questo punteggio di utilità è la differenza più importante rispetto ai sistemi RAG classici. Al momento dell’inferenza, gli agenti MemRL sono a "importazione in due fasi" meccanismo. Innanzitutto, il sistema identifica i ricordi semanticamente vicini alla query per garantirne la pertinenza. Quindi riclassifica questi candidati in base ai loro valori Q, dando effettivamente priorità alle strategie comprovate.
Il quadro incorpora direttamente l’apprendimento per rinforzo nel processo di recupero della memoria. Quando un agente tenta una soluzione e riceve un feedback ambientale (ad esempio, successo o fallimento), aggiorna il valore Q della memoria ricevuta. Ciò crea un ciclo di feedback chiuso: nel tempo, l’agente impara a ignorare i ricordi che distraggono e a dare priorità alle strategie di alto valore, senza la necessità di riqualificare il LLM sottostante.
Anche se l’aggiunta della fase di apprendimento per rinforzo sembra introdurre una latenza significativa, Wen ha notato che il sovraccarico computazionale è minimo. "Il nostro calcolo del valore Q viene eseguito interamente sulla CPU," ha detto.
MemRL dispone anche di funzionalità di apprendimento continuo in fase di esecuzione. Quando l’agente incontra un nuovo scenario, il sistema utilizza l’LLM congelato per riassumere la nuova traiettoria e la aggiunge al banco di memoria come una nuova tripletta. Ciò consente all’agente di espandere dinamicamente la propria base di conoscenza mentre interagisce con il mondo.
Vale la pena notare che l’automazione dell’assegnazione del valore comporta un rischio: se il sistema verifica erroneamente un’interazione errata, l’agente potrebbe imparare la lezione sbagliata. Wen lo accetta "memoria velenosa" Presenta dei rischi, ma a differenza delle reti neurali a scatola nera, MemRL rimane trasparente e verificabile. "Se una cattiva interazione viene erroneamente classificata come un esempio positivo… può diffondersi più ampiamente," Wen ha detto. "Ma… possiamo facilmente risolvere il problema rimuovendo i dati contaminati dal banco di memoria o reimpostando i valori Q."
MemRL in azione
I ricercatori hanno valutato MemRL su una varietà di basi rispetto a quattro diversi parametri di riferimento del settore: BigCodeBench (generazione di codice), ALFWorld (navigazione strutturata), Lifelong Agent Bench (interazione con sistema operativo e database) e Humanity’s Last Exam (ragionamento multidisciplinare complesso).
I risultati hanno mostrato che MemRL ha costantemente sovraperformato i valori di base sia nell’apprendimento in fase di esecuzione (miglioramento durante la sessione) che nell’apprendimento di trasferimento (generalizzazione a compiti invisibili).
I vantaggi di questo meccanismo di accesso consapevole del valore erano più evidenti in ambienti ad alta intensità di scoperta come ALFWorld. In questo benchmark, che richiede agli agenti di navigare e interagire in un ambiente domestico simulato, MemRL ha ottenuto un miglioramento relativo di circa il 56% rispetto ad altri. MemPun’altra struttura della memoria dell’agenzia. I ricercatori hanno scoperto che la componente dell’apprendimento per rinforzo incoraggiava efficacemente l’agente a esplorare e scoprire soluzioni per compiti complessi che i metodi di recupero basati sulla somiglianza spesso non riescono a risolvere.
MemRL ha raggiunto la massima precisione nei benchmark quando il banco di memoria è stato congelato e testato su set lunghi per misurare la generalizzazione. Ad esempio, in Lifelong Agent Bench, le attività del sistema operativo sono notevolmente migliorate rispetto alla base RAG standard. Ciò indica che il sistema non solo memorizza i dati di addestramento, ma filtra anche efficacemente i ricordi di basso valore per preservare esperienze di alta utilità che si generalizzano a nuove situazioni.
Quadro più ampio per gli agenti che si migliorano da soli
MemRL si inserisce in un crescente corpo di ricerca incentrato sui processi decisionali di Markov basati sulla memoria (M-MDP), una formulazione che inquadra il recupero della memoria come una fase decisionale attiva piuttosto che una funzione di ricerca passiva. Trattando il recupero come un’azione che può essere ottimizzata attraverso l’apprendimento per rinforzo, framework come MemRL e approcci simili Memoria Apre la strada a sistemi più autonomi.
Questo cambiamento è importante per l’intelligenza artificiale aziendale. Suggerisce un futuro in cui gli agenti possono essere distribuiti con un LLM generico e quindi adattarsi rapidamente a flussi di lavoro aziendali specifici, database specializzati e serie di problemi unici semplicemente attraverso l’interazione. Il cambiamento più importante a cui stiamo assistendo riguarda i framework che trattano le applicazioni come ambienti dinamici in cui apprendere.
Queste capacità emergenti consentiranno alle organizzazioni di mantenere agenti coerenti e ad alte prestazioni che si evolvono con le esigenze aziendali, risolvendo il problema del modello legacy senza incorrere nei costi proibitivi di una costante riqualificazione.
Ciò segna un cambiamento nel modo in cui valutiamo i dati. "In un futuro in cui i dati statici stanno per esaurirsi, l’esperienza di interazione prodotta da ogni agente intelligente nel corso della sua vita sarà il nuovo carburante." Wen ha detto.















