Quando un’organizzazione LLM recupera il nome di un prodotto, una specifica tecnica o una clausola contrattuale standard, utilizza costosi GPU computing progettati per ragionamenti complessi solo per accedere a informazioni statiche. Questo accade milioni di volte al giorno. Ogni chiamata spreca cicli e aumenta i costi delle infrastrutture.

DeepSeek Ricerca appena pubblicata su "memoria condizionata" affronta direttamente questa limitazione architetturale. Questo lavoro introduce Engram, un modulo che separa il recupero di modelli statici dal ragionamento dinamico. Fornisce risultati che mettono in discussione le ipotesi su ciò che fa effettivamente la memoria nelle reti neurali. Coautore dell’articolo Ricerca approfondita Il fondatore è Liang Wenfeng.

Attraverso esperimenti sistematici, DeepSeek ha trovato l’equilibrio ottimale tra calcolo e memoria, con il 75% della capacità del modello sparso assegnata al ragionamento dinamico e il 25% alle ricerche statiche. Questo sistema di memoria migliorava il ragionamento piuttosto che il recupero delle informazioni.

L’accuratezza dei benchmark di ragionamento complesso è aumentata dal 70% al 74%, mentre i test incentrati sulla conoscenza sono aumentati dal 57% al 61%. Questi miglioramenti sono stati ottenuti da test come Big-Bench Hard, ARC-Challenge e MMLU.

La ricerca arriva in un momento in cui le aziende si trovano ad affrontare una pressione crescente per costruire sistemi di intelligenza artificiale più capaci, affrontando al tempo stesso i limiti di memoria della GPU e i costi dell’infrastruttura. L’approccio di DeepSeek offre un potenziale percorso da seguire ripensando radicalmente il modo in cui i modelli dovrebbero essere strutturati.

In che modo la memoria condizionata risolve un problema diverso rispetto alla memoria di agenzia e al RAG?

Sistemi di memoria agentica, a volte chiamati memoria contestuale Col senno di poi, MemoO memp – concentrarsi sulla memoria episodica. Memorizzano record di conversazioni passate, preferenze dell’utente e cronologia delle interazioni. Questi sistemi aiutano gli agenti a mantenere il contesto durante le sessioni e ad apprendere dall’esperienza. Tuttavia, questi sono esterni al passaggio in avanti del modello e non ottimizzano il modo in cui il modello elabora internamente i modelli linguistici statici.

Secondo Chris Latimer, fondatore e CEO di Vectorize, che ha sviluppato Hindsight, l’approccio della memoria condizionale utilizzato in Engram risolve un problema diverso rispetto alla memoria dell’intelligenza artificiale dell’agenzia.

"Non risolve il problema di legare gli agenti alla memoria esterna come la cronologia delle conversazioni e gli archivi di informazioni," Latimer ha detto a VentureBeat. "Ha lo scopo di spremere le prestazioni dai modelli più piccoli e ottenere più chilometraggio dalle scarse risorse della GPU."

La memoria condizionale risolve un problema fondamentale: i trasformatori non dispongono di una primitiva per la ricerca di informazioni locali. Durante l’elaborazione del testo, devono simulare il recupero di modelli statici attraverso costosi calcoli neurali su più livelli. Questi modelli includono entità denominate, terminologia tecnica ed espressioni comuni.

L’articolo di DeepSeek lo dimostra con un esempio concreto. riconoscimento "Diana, principessa del Galles" Richiede più livelli di attenzione e il consumo di reti feedforward per creare funzionalità in modo incrementale. Il modello utilizza circuiti logici profondi e dinamici per eseguire quella che dovrebbe essere essenzialmente una semplice ricerca nella tabella hash. È come usare una calcolatrice per ricordare il tuo numero di telefono invece di limitarti a chiamare.

"Il problema è che Transformer non ha la capacità di “cercare informazioni locali”." scrivono i ricercatori. "Molte attività che devono essere risolte in tempo O(1), come l’annullamento, devono essere “simulate per l’annullamento” attraverso una grande quantità di calcoli, il che è molto inefficiente."

Come funziona la memoria condizionata?

Engram introduce "memoria condizionata" Si lavora con il calcolo condizionale del MIUR.

Il meccanismo è semplice. Il modulo accetta stringhe da due a tre token e utilizza funzioni hash per cercarle in una grande tabella di inserimento. Il recupero avviene in un tempo costante, indipendentemente dalle dimensioni della tabella.

Tuttavia, i modelli ricevuti devono essere filtrati. Una ricerca hash "Mela" Potrebbe sovrapporsi a contenuti non correlati oppure la parola potrebbe significare frutto anziché compagnia. Engram risolve questo problema con un meccanismo a cancello. La comprensione del contesto attuale da parte del modello (accumulata attraverso i precedenti livelli di attenzione) funge da filtro. Se la memoria recuperata entra in conflitto con il contesto corrente, il gate la sopprime. Se dorme, la porta lo lascerà passare.

Il modulo non viene applicato a tutti i livelli. Il posizionamento strategico bilancia i guadagni in termini di prestazioni con la latenza del sistema.

Questo design a doppio sistema solleva una questione cruciale: quanta capacità dovrebbe avere ciascuno? La scoperta chiave di DeepSeek: la suddivisione ottimale è del 75-80% per il calcolo e del 20-25% per la memoria. I test hanno dimostrato che il MoE puro (calcolo al 100%) non è ottimale. Troppi calcoli sprecano profondità ricreando modelli statici; troppa memoria fa perdere la capacità di ragionamento.

Efficienza dell’infrastruttura: bypass della memoria della GPU

Forse il contributo più pragmatico di Engram è la sua progettazione attenta alle infrastrutture. A differenza del routing dinamico di MoE, che dipende dagli stati nascosti in fase di esecuzione, gli indici di recupero di Engram dipendono solo dalle sequenze di token di input. Questa natura deterministica consente la strategia di precaricamento e sovrapposizione.

"La sfida è che la memoria della GPU è limitata e costosa, il che rende i modelli più grandi costosi e difficili da implementare." disse Latimer. "L’idea intelligente alla base di Engram è quella di mantenere il modello principale sulla GPU, ma scaricare la maggior parte delle informazioni archiviate del modello in una memoria separata sulla RAM normale che il modello può utilizzare al momento giusto."

Durante l’inferenza, il sistema può recuperare in modo asincrono gli inserimenti dalla memoria della CPU host tramite PCIe. Ciò accade mentre la GPU calcola i blocchi del trasformatore precedenti. Il posizionamento strategico dei livelli sfrutta il calcolo dei primi livelli come buffer per mascherare la latenza della comunicazione.

I ricercatori lo hanno dimostrato con una tabella di posizionamento dei parametri da 100B caricata interamente nella DRAM principale. Hanno ottenuto penalità di efficienza inferiori al 3%. La separazione dello storage dall’elaborazione elimina un vincolo aziendale critico in quanto la memoria a larghezza di banda elevata della GPU è costosa e scarsa.

Cosa significa questo per l’implementazione dell’AI aziendale?

Per le organizzazioni che valutano le strategie dell’infrastruttura AI, i risultati di DeepSeek offrono diversi spunti utili:

1. Le architetture ibride superano gli approcci puri. La legge di allocazione 75/25 afferma che i modelli ottimali dovrebbero suddividere la capacità sparsa tra calcolo e memoria.

2. I costi dell’infrastruttura potrebbero spostarsi dalla GPU alla memoria. Se le architetture in stile Engram si rivelassero realizzabili in produzione, i modelli di investimento infrastrutturale potrebbero cambiare. La capacità di archiviare oltre 100 miliardi di parametri nella memoria della CPU con un sovraccarico minimo suggerisce che le configurazioni di fascia media di elaborazione ricche di memoria possono offrire prestazioni migliori per dollaro rispetto al puro ridimensionamento della GPU.

3. I miglioramenti logici superano i guadagni di conoscenza. La sorprendente scoperta che il ragionamento offre maggiori vantaggi rispetto al recupero di informazioni suggerisce che il valore della memoria si estende oltre i casi d’uso ovvi.

Engram mostra che la prossima frontiera per le organizzazioni pioniere nell’adozione dell’intelligenza artificiale potrebbe non essere costituita solo da modelli più grandi. Sono scelte architetturali più intelligenti che rispettano la distinzione fondamentale tra informazione statica e ragionamento dinamico. La ricerca suggerisce che i sistemi di intelligenza artificiale ottimali assomiglieranno sempre più alle architetture ibride.

Le organizzazioni che prevedono di adottare l’intelligenza artificiale più avanti nel ciclo dovrebbero monitorare se i principali fornitori di modelli stanno incorporando i principi della memoria condizionale nelle loro architetture. Se la legge di allocazione 75/25 vale su tutte le scale e i domini, i modelli di base di prossima generazione potrebbero fornire prestazioni di ragionamento significativamente migliori a costi infrastrutturali inferiori.

Collegamento alla fonte