RAG non è sempre abbastanza veloce o abbastanza intelligente per i moderni flussi di lavoro mediati dall’intelligenza artificiale. Man mano che i team passano da chatbot di breve durata ad agenti di lunga durata e ricchi di strumenti integrati nei sistemi di produzione, queste limitazioni diventano più difficili da superare.
In risposta, i team stanno sperimentando architetture di memoria alternative, a volte chiamate memoria contestuale o memoria agente, che danno priorità alla persistenza e alla stabilità rispetto al recupero dinamico.
Una delle più recenti applicazioni di questo approccio "memoria osservativa," È una tecnologia open source sviluppata da Mastra, fondata da ingegneri che in precedenza avevano costruito e venduto questo sistema. Quadro Gatsby per Netlify.
A differenza dei sistemi RAG che recuperano dinamicamente il contesto, la memoria osservativa utilizza due agenti in background (Observer e Reflector) per comprimere la cronologia delle conversazioni in un registro di osservazione datato. Le osservazioni compresse rimangono nel contesto, eliminando del tutto il recupero. Per il contenuto testuale, il sistema raggiunge una compressione 3-6x. Per i carichi di lavoro degli agenti che utilizzano molti strumenti e producono elevati throughput, i rapporti di compressione raggiungono 5-40 volte.
Il compromesso qui è che la memoria osservativa dà la priorità a ciò che l’agente ha visto prima e decide di cercare in un corpus esterno più ampio, rendendolo meno adatto alla scoperta di conoscenza a tempo indeterminato o ai casi d’uso di richiamo con elevata compatibilità.
Utilizzando GPT-5-mini, il sistema ha ottenuto un punteggio del 94,87% su LongMemEval mantenendo una finestra di contesto completamente stabile e memorizzabile nella cache. Nel modello GPT-4o standard, la memoria osservativa ha ottenuto l’84,23%, mentre l’implementazione di RAG di Mastra ha ottenuto l’80,05%.
"Ha la grande caratteristica di essere allo stesso tempo più semplice e più potente, come se avesse un punteggio migliore nei benchmark." Sam Bhagwat, co-fondatore e CEO di Mastra, ha dichiarato a VentureBeat:
Come funziona: due agenti comprimono la cronologia in osservazioni
L’architettura è più semplice rispetto ai sistemi di memoria tradizionali ma produce risultati migliori.
La memoria osservativa divide la finestra di contesto in due blocchi. Il primo contiene osservazioni tratte da appunti compressi e datati di conversazioni precedenti. Il secondo conserva la cronologia dei messaggi grezzi della sessione corrente.
Due agenti in background gestiscono il processo di compressione. Quando i messaggi non osservati raggiungono le 30.000 monete (configurabili), l’agente Observer li comprime in nuove osservazioni e le aggiunge al primo blocco. Vengono lasciati i messaggi originali. Quando le osservazioni raggiungono le 40.000 monete (anche configurabili), l’agente Reflector ricostruisce e condensa il registro delle osservazioni, unisce gli elementi correlati e rimuove le informazioni modificate.
"In un certo senso comprimi questi messaggi nel tempo, in un certo senso ricevi il messaggio e poi hai un agente che dice: “Okay, quindi quali sono le cose importanti da ricordare in questo thread di messaggi?”" disse Bhagwat. "Lo stringi, poi prendi altre 30.000 monete e lo stringi."
Il formato è basato su testo, non su oggetti strutturati. Non sono necessari database vettoriali o database grafici.
Le finestre di contesto stabili riducono i costi dei token fino a 10 volte
L’economia della memoria osservativa deriva dalla memorizzazione nella cache veloce. Anthropic, OpenAI e altri fornitori riducono i costi dei token per le attestazioni memorizzate nella cache di 4-10 volte rispetto alle attestazioni non memorizzate nella cache. La maggior parte dei sistemi di memoria non possono trarne vantaggio perché cambiano il prompt in ogni occasione iniettando dinamicamente il contesto ricevuto, il che invalida la cache. Per i team di produzione, questa instabilità si traduce direttamente in curve di costo imprevedibili e carichi di lavoro rappresentativi difficili da preventivare.
La memoria osservativa mantiene il contesto costante. Il blocco di osservazione serve solo a scopo di inserimento finché la riflessione non funziona; Ciò significa che il prompt del sistema e le osservazioni correnti formano un prefisso coerente che può essere memorizzato nella cache durante molti giri. I messaggi continuano ad essere aggiunti al blocco della cronologia non elaborata fino al raggiungimento della soglia di 30.000 token. Ogni round prima di questo è un colpo completo alla cache.
Quando viene eseguita l’osservazione, i messaggi vengono sostituiti con nuove osservazioni aggiunte al blocco di osservazioni esistente. Il prefisso di osservazione rimane coerente, quindi il sistema riceve ancora riscontri parziali nella cache. Solo durante la riflessione (che raramente funziona) l’intera cache verrà invalidata.
La dimensione media della finestra di contesto per lo studio benchmark LongMemEval di Mastra era di circa 30.000 token; questo era molto più piccolo di quanto richiederebbe la storia completa del discorso.
Perché è diverso dalla compressione tradizionale?
La maggior parte dei broker di codifica utilizza la compressione per gestire un contesto lungo. La compressione garantisce che la finestra di contesto si riempia completamente, quindi comprime l’intera cronologia in un digest quando sta per traboccare. L’agente continua, la finestra si riempie nuovamente e il processo si ripete.
Produce riepiloghi in stile documentazione di compressione. Cattura l’essenza di ciò che sta accadendo ma perde eventi, decisioni e dettagli specifici. La compressione avviene in batch di grandi dimensioni, rendendo ogni passaggio computazionalmente costoso. Ciò funziona in termini di leggibilità umana, ma spesso elimina le decisioni specifiche e le interazioni degli strumenti necessarie affinché gli agenti agiscano in modo coerente nel tempo.
L’Observer, d’altra parte, viene eseguito più frequentemente ed elabora pezzi più piccoli. Invece di riassumere la conversazione, produce un registro decisionale basato sugli eventi (un elenco strutturato di osservazioni datate e in ordine di priorità su ciò che è accaduto nello specifico). Ogni ciclo di osservazione considera meno contesto e lo comprime in modo più efficiente.
Il log non viene mai riepilogato in un BLOB. Anche durante la riflessione, Reflector riorganizza e condensa le osservazioni per trovare connessioni e rimuovere dati non necessari. Tuttavia, la struttura basata sugli eventi continua ad esistere. Il risultato sembra una registrazione di decisioni e azioni, non una documentazione.
Casi d’uso aziendali: conversazioni con agenti di lunga durata
I clienti di Mastra abbracciano molte categorie. Alcuni creano chatbot in-app per piattaforme CMS come Sanity o Contentful. Altri stanno costruendo sistemi AI SRE che aiutano i team di ingegneri a dare priorità agli avvisi. Gli agenti di elaborazione documenti gestiscono le pratiche burocratiche per le aziende tradizionali che si muovono verso l’automazione.
Ciò che questi casi d’uso hanno in comune è la necessità di conversazioni a lungo termine che mantengano il contesto per settimane o mesi. Un agente integrato nel sistema di gestione dei contenuti deve ricordare che l’utente ha richiesto un formato di report specifico tre settimane fa. Un rappresentante SRE deve tenere traccia di quali avvisi vengono esaminati e quali decisioni vengono prese.
"Uno dei maggiori obiettivi per il 2025 e il 2026 era creare un agente all’interno delle applicazioni web." Bhagwat ha affermato quanto segue sulle aziende SaaS B2B. "Questo rappresentante deve essere in grado di ricordare che tre settimane fa mi hai chiesto informazioni a riguardo o hai detto che volevi un rapporto su questo tipo di contenuti o visualizzazioni segmentate in base a questa metrica."
In questi scenari, la memoria diventa un requisito del prodotto piuttosto che un’ottimizzazione; gli utenti notano immediatamente quando gli agenti dimenticano decisioni o preferenze precedenti.
La memoria osservativa mantiene presenti e accessibili mesi di cronologia delle conversazioni. L’agente può rispondere ricordando l’intero contesto, senza che l’utente debba spiegare nuovamente le preferenze o le decisioni precedenti.
Il sistema è stato fornito come parte di Mastra 1.0 ed è ora disponibile. Questa settimana, il team ha rilasciato plugin per LangChain, AI SDK di Vercel e altri framework, consentendo agli sviluppatori di utilizzare la memoria di osservazione al di fuori dell’ecosistema Mastra.
Cosa significa produzione per i sistemi di intelligenza artificiale?
La memoria osservativa offre un approccio architetturale diverso rispetto al database vettoriale e alle pipeline RAG che dominano le applicazioni attuali. Un’architettura più semplice (basata su testo, senza database proprietari) semplifica il debug e la manutenzione. La finestra di contesto stabile consente una memorizzazione nella cache aggressiva che riduce i costi. Le prestazioni del benchmark mostrano che l’approccio può funzionare su vasta scala.
Le domande chiave per i team aziendali che valutano gli approcci alla memoria includono:
-
Quanto contesto devono mantenere i tuoi agenti tra una sessione e l’altra?
-
Qual è la tua tolleranza per la compressione con perdita rispetto alla ricerca esaustiva?
-
Hai bisogno dell’accesso dinamico fornito da RAG o il contesto stabile funzionerebbe meglio?
-
I tuoi agenti dispongono di strumenti che producono grandi quantità di output che richiedono compressione?
Le risposte determinano se la memoria di osservazione è adatta al tuo caso d’uso. Bhagwat posiziona la memoria come una delle primitive più importanti richieste per gli agenti ad alte prestazioni, insieme a strumenti, orchestrazione del flusso di lavoro, osservabilità e guardrail. Per gli agenti aziendali incorporati nei prodotti, dimenticare il contesto tra le sessioni è inaccettabile. Gli utenti si aspettano che gli agenti ricordino le loro preferenze, le decisioni precedenti e il lavoro in corso.
"La cosa più difficile per i team delle agenzie edili è la produzione, che può richiedere molto tempo." disse Bhagwat. "La memoria è una parte davvero importante in questo, perché se usi un mezzo e gli dici qualcosa e poi lo dimentichi, è semplicemente stridente."
Man mano che gli agenti passano dagli esperimenti ai sistemi di registrazione integrati, il modo in cui i team progettano la memoria può essere tanto importante quanto il modello che scelgono.















