Nel 2025, è diventato sempre più chiaro che l’adozione della produzione aumentata (RAG) non è sufficiente a soddisfare i crescenti requisiti di dati per l’intelligenza artificiale delle agenzie.
Negli ultimi anni RAG è diventato l’approccio predefinito per collegare i LLM alla conoscenza esterna. Il modello è semplice: suddividere i documenti in blocchi, incorporarli in vettori, archiviarli in un database e recuperare i passaggi più simili quando arrivano le query. Funziona abbastanza bene per domande una tantum su documenti statici. Ma l’architettura crolla quando gli agenti dell’intelligenza artificiale devono lavorare su più sessioni, mantenere il contesto nel tempo o distinguere tra ciò che osservano e ciò in cui credono.
Una nuova architettura di memoria open source chiamata Hindsight affronta questa sfida organizzando la memoria dell’agente AI in quattro reti separate che separano fatti del mondo, esperienze dell’agente, riepiloghi di entità sintetizzate e credenze in evoluzione. Sistema sviluppato da Vectorize.io In collaborazione con Virginia Tech e The Washington Post, ha sovraperformato i sistemi di memoria esistenti ottenendo una precisione del 91,4% nel benchmark LongMemEval.
"RAG è in supporto vitale e la memoria dell’agente sta per distruggerlo completamente." Chris Latimer, co-fondatore e CEO Vectorize.ioha detto a VentureBeat in un’intervista esclusiva. "La maggior parte dell’infrastruttura RAG esistente che le persone hanno implementato non funziona al livello desiderato."
Perché RAG non può elaborare la memoria intermedia a lungo termine?
RAG è stato inizialmente sviluppato come un approccio che consentiva ai Master di accedere a informazioni oltre i dati di formazione senza riqualificare il modello.
Il problema principale è che RAG tratta tutte le informazioni ricevute allo stesso modo. Un fatto osservato sei mesi fa riceve lo stesso trattamento di un’opinione formata ieri. Le informazioni che contraddicono le dichiarazioni precedenti compaiono accanto alle affermazioni originali e non esiste alcun meccanismo per riconciliarle. Il sistema non ha modo di rappresentare l’incertezza, di monitorare come si sviluppano le convinzioni o di comprendere il motivo per cui si è giunti ad una particolare conclusione.
Il problema diventa serio nelle trattative multisessione. Quando un agente deve ricordare i dettagli di centinaia di migliaia di token distribuiti su dozzine di sessioni, i sistemi RAG riempiono la finestra di contesto con informazioni irrilevanti o perdono del tutto i dettagli critici. La somiglianza vettoriale da sola non può determinare cosa è importante per una determinata query quando richiede la comprensione di relazioni temporali, catene causali o contesto specifico dell’entità accumulato nel corso di settimane per una determinata query.
"Se hai un approccio unico alla memoria, o stai portando con te troppo contesto che non dovresti portare, o troppo poco contesto." Naren Ramakrishnan, professore di informatica alla Virginia Tech e direttore del Sangani Center for Artificial Intelligence and Data Analytics, ha detto a VentureBeat.
Passare dal RAG alla memoria dell’agenzia con Hindsight
Il passaggio da RAG alla memoria dell’agente rappresenta un cambiamento architetturale fondamentale.
Invece di trattare la memoria come uno strato di accesso esterno che trasmette porzioni di testo ai prompt, Hindsight integra la memoria come un substrato strutturato e di prima classe per il ragionamento.
L’innovazione chiave di Hindsight è che separa le informazioni in quattro reti logiche. Il web mondiale memorizza fatti oggettivi sull’ambiente esterno. La rete bancaria cattura le esperienze e le azioni proprie dell’agente, scritte in prima persona. La rete di opinione mantiene giudizi soggettivi con punteggi di confidenza che vengono aggiornati non appena diventano disponibili nuove prove. La rete di osservazione mantiene sintesi delle attività, neutrali rispetto alle preferenze, sintetizzate dai fatti sottostanti.
Questa distinzione consente ai ricercatori di ” "apertura epistemica" separando strutturalmente l’evidenza dalle inferenze. Quando un agente forma un’opinione, tale convinzione viene archiviata insieme a un punteggio di confidenza, separato dai fatti che la supportano. Quando arrivano nuove informazioni, il sistema può rafforzare o indebolire le opinioni esistenti invece di trattare tutte le informazioni archiviate come ugualmente accurate.
L’architettura è composta da due componenti che imitano il modo in cui funziona la memoria umana.
TEMPR (Temporal Entity Memory Preparazione Retrieval) gestisce la conservazione e il richiamo della memoria eseguendo quattro ricerche parallele: somiglianza vettoriale semantica, corrispondenza di parole chiave tramite BM25, attraversamento del grafico su entità condivise e filtro temporale per query con vincoli di tempo. Il sistema combina i risultati utilizzando la Reciprocal Sequence Fusion e applica un risequenziamento neurale per la massima precisione.
I CARA (Coherent Adaptive Reasoning Agents) affrontano la riflessione basata sulle preferenze integrando parametri disposizionali configurabili nel ragionamento: scetticismo, realismo ed empatia. Ciò risolve il ragionamento incoerente tra le sessioni. Senza condizionamento delle preferenze, gli agenti producono risposte localmente plausibili ma globalmente incoerenti perché il LLM sottostante non ha una prospettiva stabile.
Il senno di poi ha ottenuto il punteggio LongMemEval più alto pari al 91%
La retrospezione non è solo ricerca accademica teorica; La tecnologia open source è stata valutata secondo il criterio LongMemEval. Il test valuta i rappresentanti su conversazioni che coprono fino a 1,5 milioni di monete in più sessioni; Misura la loro capacità di ricordare informazioni, ragionare nel tempo e mantenere prospettive coerenti.
Il benchmark LongMemEval verifica se gli agenti AI sono in grado di gestire scenari di distribuzione del mondo reale. Una delle sfide principali che le aziende devono affrontare sono gli agenti che funzionano bene nei test ma falliscono nella produzione. Il senno di poi ha raggiunto una precisione del 91,4% nel benchmark, il punteggio più alto registrato nel test.
Risultati più ampi hanno mostrato dove la memoria strutturata ha ottenuto i maggiori guadagni: le domande multisessione sono aumentate dal 21,1% al 79,7%; il ragionamento temporale è balzato dal 31,6% al 79,7%; e le domande di aggiornamento delle conoscenze sono aumentate dal 60,3% all’84,6%.
"Ciò significa che i tuoi agenti possono eseguire più attività in modo più accurato e coerente rispetto a prima." disse Latimer. "Ciò consente di ottenere uno strumento più accurato in grado di gestire i processi aziendali più critici."
Distribuzione aziendale e integrazione dell’hyperscaler
Per le organizzazioni che stanno valutando come implementare Hindsight, il percorso verso l’implementazione è semplice. Il sistema funziona come un singolo contenitore Docker e si integra utilizzando un wrapper LLM che funziona con qualsiasi modello linguistico.
"Questo è un sostituto immediato per le tue chiamate API e inizi subito a popolare i ricordi." disse Latimer.
La tecnologia si rivolge alle aziende che hanno già implementato l’infrastruttura RAG e non vedono le prestazioni di cui hanno bisogno.
"Gran parte dell’infrastruttura RAG esistente che le persone hanno implementato non funziona al livello desiderato e spesso sono alla ricerca di soluzioni più solide in grado di risolvere i problemi che le aziende devono affrontare, come non essere in grado di accedere alle informazioni giuste per completare un’attività o rispondere a una serie di domande." disse Latimer.
Vectorize sta lavorando con hyperscaler per integrare la tecnologia nelle piattaforme cloud. L’azienda collabora attivamente con fornitori di servizi cloud per supportare i suoi LLM con capacità di memoria intermedie.
Cosa significa questo per le imprese?
Per le organizzazioni che guidano l’adozione dell’intelligenza artificiale, Hindsight rappresenta un percorso oltre i limiti delle attuali implementazioni RAG.
Le organizzazioni che investono nel rendering aumentato di recupero e riscontrano prestazioni incoerenti dell’agente dovrebbero valutare se la memoria strutturata è in grado di affrontare le modalità di errore specifiche. Questa tecnologia è particolarmente adatta alle applicazioni in cui gli agenti devono mantenere il contesto tra più sessioni, affrontare informazioni contrastanti nel tempo o spiegare il ragionamento.
"RAG è morto e penso che la memoria dell’agente sia ciò che lo ucciderà per sempre." disse Latimer.















