Responsabile prodotto senior di intelligenza artificiale di Google Shubham Saboo Ha trasformato uno dei problemi più impegnativi nella progettazione degli agenti in un’applicazione di ingegneria open source: la memoria persistente.

Questa settimana è stata pubblicata una versione open source “Broker di memoria sempre attivo” sulla piattaforma ufficiale Google Cloud Github La pagina è protetta da una licenza MIT permissiva che ne consente l’uso commerciale.

È stato costruito con l’Agent Development Kit di Google, o ADK, introdotto la scorsa primavera nel 2025, e Gemini 3.1 Flash-Lite, un modello a basso costo che Google ha introdotto il 3 marzo 2026 come il modello della serie Gemini 3 più veloce ed economico.

Il progetto funge da implementazione di riferimento pratico per qualcosa che molti team di intelligenza artificiale desiderano ma pochi hanno prodotto in modo pulito: un sistema intermedio in grado di acquisire continuamente informazioni, combinarle in background e recuperarle in seguito senza fare affidamento su un database vettoriale tradizionale.

Per gli sviluppatori aziendali, il rilascio è importante meno come lancio di un prodotto e più come segnale della direzione in cui sta andando l’infrastruttura dell’agente.

Repo racchiude la visione sempre più attraente dell’autonomia a lungo termine per sistemi di supporto, ricercatori, copiloti interni e automazione del flusso di lavoro. Inoltre, una volta che la memoria non è più legata alla sessione, le questioni di governance diventano più nitide.

Cosa sembra fare il repository e cosa chiaramente non pretende di fare

Sembra inoltre che il repository utilizzi un’architettura interna multi-agente con componenti specializzati che gestiscono l’acquisizione, il consolidamento e l’interrogazione.

Tuttavia, i materiali forniti non sostengono chiaramente l’affermazione più ampia secondo cui si tratta di una struttura di memoria condivisa per più agenti indipendenti.

Questa distinzione è importante. Come framework, ADK supporta i sistemi multi-agente, ma questo particolare repository è meglio descritto come un broker di memoria o un livello di memoria sempre attivo. subagenti specializzati e archiviazione permanente.

Anche a questo livello più ristretto, affronta un problema infrastrutturale fondamentale su cui molti team stanno lavorando attivamente.

L’architettura privilegia la semplicità rispetto allo stack di accesso tradizionale

In base al repository, l’agente viene eseguito continuamente, recuperando file o input API, archiviando le memorie configurate in SQLite ed eseguendo la deframmentazione programmata della memoria ogni 30 minuti per impostazione predefinita.

Sono inclusi un’API HTTP nativa e un pannello di controllo Streamlit e il sistema supporta l’acquisizione di testo, immagini, audio, video e PDF. Il repository incornicia il progetto con un’affermazione deliberatamente provocatoria: “Nessun database vettoriale. Nessun incorporamento. Solo un Master che legge, pensa e scrive memoria strutturata”.

Questa scelta progettuale attirerà probabilmente l’attenzione degli sviluppatori che gestiscono costi e complessità operativa. Gli stack di acquisizione tradizionali spesso richiedono pipeline di acquisizione, archiviazione di vettori, logica di indicizzazione e lavoro di sincronizzazione separati.

L’esempio di Saboo si basa invece sul modello per organizzare e aggiornare direttamente la memoria. In pratica, ciò può semplificare i prototipi e ridurre l’espansione dell’infrastruttura, soprattutto per gli agenti di memoria di piccole o medie dimensioni. Inoltre, sposta la questione delle prestazioni dall’overhead della ricerca vettoriale alla latenza del modello, alla logica di compressione della memoria e alla stabilità comportamentale a lungo termine.

Flash-Lite introduce una logica economica nel modello sempre attivo

È qui che entra in gioco Gemini 3.1 Flash-Lite.

Google afferma che il modello è progettato su larga scala per carichi di lavoro di sviluppatori ad alto volume e viene offerto a 0,25 dollari per 1 milione di token di input e 1,50 dollari per 1 milione di token di output.

L’azienda afferma inoltre che Flash-Lite è 2,5 volte più veloce nel tempo per il primo token rispetto a Gemini 2.5 Flash, fornendo un aumento del 45% nella velocità di throughput pur mantenendo una qualità simile o migliore.

Nei benchmark pubblicati da Google, il modello raggiunge un punteggio Elo di 1432 in Arena.ai, 86,9% in GPQA Diamond e 76,8% in MMMU Pro. Google posiziona queste funzionalità come adatte per attività ad alta frequenza come traduzione, moderazione, rendering dell’interfaccia utente e simulazione.

Questi numeri aiutano a spiegare perché Flash-Lite è associato a un agente di memoria in background. Un servizio 24 ore su 24, 7 giorni su 7 che rilegge, unisce e serve periodicamente la memoria necessita di una latenza prevedibile e di costi di inferenza sufficientemente bassi da non rendere proibitivo lo stato “sempre attivo”.

I documenti ADK di Google rafforzano la storia più ampia. Il framework viene offerto indipendentemente dal modello e dalla distribuzione, con supporto per agenti del flusso di lavoro, sistemi multi-agente, strumenti, valutazione e obiettivi di distribuzione, inclusi Cloud Run e Vertex AI Agent Engine. Questa combinazione fa sembrare il broker di memoria un punto di riferimento per una strategia di runtime del broker più ampia piuttosto che una demo una tantum.

Il dibattito aziendale riguarda la governance, non solo il talento

La risposta del pubblico mostra perché l’adozione da parte delle aziende della memoria persistente non dipenderà esclusivamente dalla velocità o dal prezzo dei token.

Le varie risposte su X hanno evidenziato esattamente le preoccupazioni che gli architetti aziendali probabilmente esprimeranno. Franck Abe Google ha definito l’ADK e la deframmentazione della memoria 24 ore su 24, 7 giorni su 7 “passi brillanti per l’autonomia continua dell’agente”, ma ha avvertito che un agente che “sogna” e attraversa ricordi senza confini deterministici in background diventa un “incubo di compatibilità”.

ELED Ha sottolineato un punto correlato, sostenendo che il costo principale dei broker sempre attivi non sono i token ma “derive e cicli”.

Queste critiche riguardano direttamente il sovraccarico operativo dei sistemi persistenti: chi può scrivere la memoria, cosa viene assemblato, come funziona la conservazione, quando i ricordi vengono cancellati e in che modo i team controllano ciò che l’agente apprende nel tempo?

Un’altra reazione è sospettosoSi è opposto al framework “no embedding” del repository, sostenendo che il sistema ha ancora bisogno di frammentare, indicizzare e recuperare la memoria strutturata e che questo potrebbe funzionare bene per agenti con contesti piccoli, ma potrebbe rompersi quando gli archivi di memoria diventano molto più grandi.

Questa critica è importante dal punto di vista tecnico. La rimozione di un database vettoriale non rimuove la sua struttura di accesso; Cambia dove abita la complessità.

Per gli sviluppatori, il compromesso riguarda meno l’ideologia e più la convenienza. Sebbene uno stack più leggero possa essere interessante per i broker a basso costo e con memoria limitata, le implementazioni su larga scala potrebbero comunque richiedere controlli di acquisizione più rigorosi, strategie di indicizzazione più esplicite e strumenti del ciclo di vita più potenti.

ADK espande la storia oltre una singola demo

Altri commentatori si sono concentrati sul flusso di lavoro degli sviluppatori. Qualcuno ha chiesto il repository e la documentazione dell’ADK e voleva sapere se il runtime era serverless o di lunga esecuzione e se l’invocazione dello strumento e gli hook di valutazione erano disponibili immediatamente.

Secondo i materiali forniti, la risposta è effettivamente entrambe le cose: l’istanza del broker di memoria stessa è strutturata come un servizio a lunga esecuzione, mentre l’ADK supporta più ampiamente modelli di distribuzione multipli e include strumenti e funzionalità di valutazione.

L’agente di memoria sempre attivo è interessante di per sé, ma il messaggio più ampio è che Saboo sta cercando di far sembrare gli agenti come sistemi software distribuibili piuttosto che come prompt isolati. In questo contesto, la memoria diventa parte del livello runtime e non solo una funzionalità plug-in.

Ciò che Saboo mostra e non mostra

Ciò che Saboo non ha ancora mostrato è importante tanto quanto ciò che ha pubblicato.

I materiali forniti non includono un confronto diretto tra Flash-Lite e Anthropic Claude Haiku per i cicli degli agenti nell’uso produttivo.

Inoltre, non impongono controlli di conformità a livello aziendale specifici per questo broker di memoria; ad esempio: limiti politici deterministici, garanzie di conservazione, regole di allocazione o flussi di lavoro di audit formali.

Sebbene il repository sembri utilizzare più agenti specializzati internamente, i materiali non dimostrano chiaramente un’affermazione più ampia sulla memoria persistente condivisa tra più agenti indipendenti.

Per ora, il repository si presenta come un intrigante modello di progettazione piuttosto che come una piattaforma di memoria aziendale completa.

Perché è importante adesso?

Tuttavia, la trasmissione arriva al momento giusto. I team di intelligenza artificiale aziendale stanno andando oltre gli assistenti a turno singolo verso sistemi che dovrebbero ricordare le preferenze, mantenere il contesto del progetto e operare su orizzonti più lunghi.

Il broker di memoria open source di Saboo offre un punto di partenza concreto per il livello infrastrutturale successivo e Flash-Lite aggiunge credibilità all’economia.

Ma la conclusione più evidente dalla reazione al lancio è che la memoria persistente sarà giudicata tanto in base alla governance quanto al talento.

Questa è la vera domanda aziendale dietro la demo di Saboo: non se un agente possa ricordare, ma se possa ricordare in un modo che rimanga limitato, verificabile e sufficientemente sicuro da fidarsi della produzione.

Collegamento alla fonte