Nonostante tutti i loro poteri sovrumani, i modelli di intelligenza artificiale di oggi hanno un difetto sorprendentemente umano: dimenticano. Se affidi a un assistente AI una conversazione ad ampio raggio, un compito di ragionamento in più fasi o un progetto che richiede giorni, alla fine andrà perso. Gli ingegneri chiamano questo fenomeno “decadimento del contesto” ed è diventato uno degli ostacoli principali alla creazione di agenti IA che possano funzionare in modo affidabile nel mondo reale.

Un team di ricercatori provenienti dalla Cina e da Hong Kong ritiene che ciò crei una soluzione al decadimento del contesto. Introduce nuovi articoli memoria agente globale (GAM)Un sistema nato per preservare le informazioni a lungo termine senza stancare il modello. La premessa è semplice: dividere la memoria in due ruoli specifici; Uno coglie tutto, l’altro ottiene esattamente le cose giuste al momento giusto.

I primi risultati sono incoraggianti e il momento non potrebbe essere migliore. GAM sta emergendo esattamente al punto di flesso giusto poiché il settore va oltre l’ingegneria rapida e abbraccia la disciplina più ampia dell’ingegneria del contesto.

Quando le finestre di contesto più ampie non sono ancora sufficienti

Al centro di ogni modello linguistico di grandi dimensioni (LLM) c’è un vincolo rigido: una “memoria di lavoro” fissa, più comunemente chiamata finestra di contesto. Man mano che le conversazioni si allungano, le vecchie informazioni vengono abbreviate, riassunte o omesse silenziosamente. Questa limitazione è nota da tempo ai ricercatori di intelligenza artificiale e dall’inizio del 2023 gli sviluppatori hanno lavorato per espandere le finestre di contesto, aumentando rapidamente la quantità di informazioni che un modello può elaborare in un unico passaggio.

Mixtral 8x7B di Mistral è stato lanciato con una finestra token da 32K di circa 24-25 parole o circa 128 caratteri in inglese; essenzialmente una piccola quantità di testo, come una singola frase. Questo è stato seguito da MPT-7B-StoryWriter-65k+ di MosaicML, che ha più che raddoppiato la capacità; seguito da Gemini 1.5 Pro di Google e Claude 3 di Anthropic; Offrendo enormi finestre da 128K e 200K, entrambe queste piattaforme sono espandibili fino a un milione di token senza precedenti. Anche Microsoft si è unita alla spinta, passando dal limite di token di 2K dei precedenti modelli Phi alla finestra di contesto di 128K del Phi-3.

Aumentare le finestre di contesto potrebbe sembrare una soluzione ovvia, ma non lo è. Anche i modelli con finestre per monete da 100.000, abbastanza grandi da contenere centinaia di pagine di testo, hanno ancora difficoltà a ricordare i dettagli sepolti vicino all’inizio di una lunga conversazione. Il contesto di ridimensionamento ha i suoi problemi. Man mano che i prompt diventano più lunghi, i modelli diventano meno affidabili nel trovare e interpretare le informazioni perché l’attenzione ai token distanti diventa più debole e la precisione diminuisce gradualmente.

Ingressi più lunghi indeboliscono anche il rapporto segnale/rumore; perché includere ogni dettaglio possibile può rendere le risposte peggiori rispetto all’utilizzo di un suggerimento mirato. Anche i prompt lunghi rallentano i modelli; più token di input portano a una latenza dei token di output significativamente più elevata, creando un limite pratico alla quantità di contesto che può essere utilizzato prima che le prestazioni diminuiscano.

I ricordi non hanno prezzo

Per la maggior parte delle organizzazioni, finestre di contesto troppo grandi presentano un chiaro svantaggio: sono costose. Inviare grandi quantità di richieste tramite un’API non è mai economico e, poiché i prezzi variano direttamente in base ai token di input, anche una singola richiesta ingombrante può aumentare le spese. La memorizzazione nella cache veloce aiuta, ma non è sufficiente a compensare l’abitudine di sovraccaricare regolarmente i modelli con contesto non necessario. Questa è la tensione al centro del problema: la memoria è fondamentale per rendere l’intelligenza artificiale più potente.

Poiché le finestre di contesto si estendono su centinaia di migliaia o milioni di token, l’onere finanziario aumenta altrettanto drasticamente. Il ridimensionamento del contesto è una sfida sia tecnica che economica e fare affidamento su finestre sempre più grandi diventa rapidamente una strategia insostenibile per la memoria a lungo termine.

Anche le correzioni come la ricapitolazione e la generazione aumentata di accesso (RAG) non sono soluzioni miracolose. I riepiloghi inevitabilmente eliminano dettagli sottili ma importanti e, sebbene il RAG tradizionale sia potente sui documenti statici, tende a rompersi quando le informazioni vengono distribuite su più sessioni o si evolvono nel tempo. Anche le varianti più recenti come l’agenzia RAG e RAG 2.0 (che funzionano meglio nel dirigere il processo di recupero) ereditano lo stesso difetto fondamentale nel trattare il recupero come la soluzione piuttosto che trattare la memoria stessa come il problema principale.

I compilatori hanno risolto questo problema decenni fa

Se la memoria è il vero collo di bottiglia e il recupero non può risolverlo, allora il divario necessita di un diverso tipo di soluzione. Questa è la scommessa dietro la GAM. Invece di affermare che il recupero è memoria, GAM mantiene un record completo e senza perdite e vi aggiunge un recupero intelligente e su richiesta, facendo emergere i dettagli esatti di cui un agente ha bisogno anche quando le conversazioni cambiano e si evolvono. Un modo utile per comprendere GAM è un’idea familiare dell’ingegneria del software: la compilazione Just-in-time (JIT). Invece di precalcolare una memoria rigida e fortemente compressa, GAM mantiene le cose leggere e compatte archiviando un archivio completo e intatto di storia grezza insieme a un numero minimo di set di suggerimenti. Quindi, quando arriva una richiesta, “compila” al volo un contesto personalizzato.

Questo approccio JIT è integrato nell’architettura binaria di GAM e consente all’intelligenza artificiale di trasportare il contesto attraverso lunghe conversazioni senza comprimere eccessivamente o indovinare troppo presto ciò che è importante. Il risultato sono le informazioni giuste fornite esattamente al momento giusto.

All’interno del GAM: un sistema a due agenti progettato per la memoria persistente

La GAM ruota attorno all’idea di separare l’atto del ricordare dall’atto del ricordare, che coinvolge opportunamente due componenti: il ‘memorizzatore’ e il ‘ricercatore’.

Memorizzatore: richiamo completo senza sovraccarico

Il memorizzatore cattura con precisione ogni scambio, convertendo silenziosamente ogni interazione in un promemoria preservando la sessione completata e decorata in un repository di pagine ricercabili. Non spreme o indovina in modo aggressivo ciò che è importante. Invece, organizza le interazioni in pagine strutturate, aggiunge metadati per un accesso efficiente e crea riepiloghi leggeri opzionali per una navigazione rapida. Fondamentalmente, ogni dettaglio viene preservato e nulla viene buttato via.

Investigatore: un motore di recupero profondo

Quando l’agente deve agire, il ricercatore prende il comando per pianificare una strategia di ricerca combinando incorporamenti con metodi di parole chiave come BM25, scorrendo gli ID delle pagine e mettendo insieme i pezzi. Esegue ricerche a più livelli nell’archivio pagine, combinando il recupero dei vettori, la corrispondenza delle parole chiave e le ricerche dirette. Valuta i risultati, identifica le lacune e, come un analista umano che esamina vecchi appunti e documenti primari, continua la ricerca finché non ottiene prove sufficienti per produrre una risposta sicura. Itera, cerca, integra e riflette fino a creare un briefing pulito e specifico per l’attività.

La potenza di GAM deriva da questa pipeline di memoria JIT, che incorpora facoltativamente un ricco contesto specifico per attività anziché fare affidamento su fragili riepiloghi precalcolati. La sua innovazione principale è semplice ma potente poiché preserva tutte le informazioni intatte e rende recuperabile ogni dettaglio.

Gli studi sull’ablazione supportano questo approccio: la memoria convenzionale fallisce da sola e il recupero ingenuo non è sufficiente. Si tratta dell’abbinamento di un archivio completo con un motore di ricerca attivo e iterativo che consente a GAM di scoprire dettagli lasciati da altri sistemi.

Supera RAG e modelli a contesto lungo.

Per testare GAM, i ricercatori lo hanno confrontato con pipeline e modelli RAG standard con finestre di contesto estese, come GPT-4o-mini e Qwen2.5-14B. Hanno valutato GAM utilizzando quattro principali benchmark a lungo contesto e ad uso intensivo di memoria, ciascuno scelto per testare un aspetto diverso delle capacità del sistema:

  • LoCoMo Misura la capacità di un agente di conservare e richiamare informazioni durante lunghe conversazioni multisessione che abbracciano attività single-hop, multi-hop, ragionamento temporale e campo aperto.

  • hotpotkaAdattato utilizzando una versione di stress test della memoria di MemAgent, che combina documenti rilevanti con distrattori per generare i contesti di token 56K, 224K e 448K, un benchmark QA multi-hop ampiamente utilizzato creato da Wikipedia; Ideale per testare la capacità di GAM di gestire input rumorosi e irradiati.

  • GOVERNATE Per analizzare ulteriormente il ragionamento a lungo orizzonte, valuta l’accuratezza del recupero, il tracciamento dello stato multi-hop, l’aggregazione su array lunghi e le prestazioni del QA nel contesto del token da 128K.

  • NarrazioneQA è un punto di riferimento in cui è necessario rispondere a ciascuna domanda utilizzando il testo completo di un libro o di una sceneggiatura cinematografica; I ricercatori hanno campionato 300 istanze con una dimensione media del contesto di 87.000 token.

Insieme, questi set di dati e parametri di riferimento hanno consentito al team di valutare sia la capacità di GAM di preservare informazioni storiche dettagliate sia la sua efficacia nel supportare compiti complessi di ragionamento a valle.

La GAM è risultata vincente in tutti i confronti. Il suo più grande vantaggio è stato in RULER, che confronta il monitoraggio dello stato a lungo raggio. Particolarmente:

  • GAM ha superato il 90% di precisione.

  • La RAG è fallita perché nei riassunti sono andati perduti dettagli importanti.

  • I modelli a lungo contesto fallirono poiché le vecchie informazioni continuavano effettivamente a “svanire” anche se tecnicamente esistevano.

Francamente, finestre di contesto più ampie non sono la soluzione. GAM funziona perché ripristina con precisione i token anziché impilarli.

GAM, ingegneria del contesto e approcci competitivi

Il vero motivo per cui gli agenti IA falliscono spesso non sono le limitazioni del modello, ma il contesto scarsamente strutturato. GAM risolve questo problema garantendo che nulla vada perduto in modo permanente e che informazioni accurate possano essere recuperate in ogni momento, anche al livello più basso. L’emergere della tecnica si integra con un attuale e più ampio spostamento dell’intelligenza artificiale verso l’ingegneria del contesto, o la pratica di modellare tutto ciò che vede un modello di intelligenza artificiale: istruzioni, cronologia, documenti ricevuti, strumenti, preferenze e formati di output.

Sebbene altri gruppi di ricerca abbiano affrontato il problema della memoria da diverse angolazioni, l’ingegneria del contesto ha rapidamente eclissato l’importanza dell’ingegneria veloce. Anthropic esplora situazioni di contesto selezionate e in evoluzione. DeepSeek tenta di archiviare la memoria come immagini. Un altro gruppo di ricercatori cinesi ha proposto “sistemi operativi semantici” costruiti attorno alla memoria adattiva permanente.

Ma la filosofia di GAM è diversa: evitare le perdite e recuperare con intelligenza. Invece di indovinare cosa sarà importante in seguito, memorizza tutto e utilizza uno speciale motore di ricerca per trovare le parti rilevanti in fase di esecuzione. Per gli agenti che gestiscono progetti di più giorni, flussi di lavoro continui o relazioni a lungo termine, questa affidabilità può essere importante.

Perché il GAM è importante nel lungo termine?

Proprio come l’aggiunta di più elaborazione non produce automaticamente algoritmi migliori, l’espansione delle finestre di contesto da sola non risolverà i problemi di memoria a lungo termine dell’intelligenza artificiale. Un progresso significativo richiede un ripensamento del sistema sottostante e GAM abbraccia questo approccio. Invece di fare affidamento su modelli più grandi, ampie finestre di contesto o suggerimenti infinitamente raffinati, tratta la memoria come un problema ingegneristico che sfrutta la struttura anziché la forza bruta.

Man mano che gli agenti dell’intelligenza artificiale passano dalle demo intelligenti agli strumenti mission-critical, la loro capacità di ricordare lunghe storie sarà vitale per lo sviluppo di sistemi affidabili e intelligenti. Le organizzazioni hanno bisogno di agenti IA in grado di tenere traccia delle attività in evoluzione, mantenere la continuità e ricordare le interazioni passate con precisione e accuratezza. GAM offre un percorso pratico verso quel futuro indicando quella che potrebbe essere la prossima grande frontiera dell’intelligenza artificiale: non modelli più grandi, ma sistemi di memoria più intelligenti e le architetture di contesto che li abilitano.

Collegamento alla fonte