Modelli linguistici ricorsivi (RLMs) è una tecnica di inferenza sviluppata dai ricercatori del MIT CSAIL che tratta i prompt lunghi come un ambiente esterno al modello. Invece di forzare l’intero prompt nella finestra di contesto del modello, il framework consente a LLM di esaminare, analizzare e richiamarsi a livello di codice in modo ricorsivo su frammenti di testo.
Invece di espandere le finestre di contesto o riassumere vecchie conoscenze, il team del MIT riformula il ragionamento sul contesto lungo come un problema di sistema. I modelli linguistici ricorsivi consentono ai modelli di trattare i prompt come qualcosa che possono ispezionare con il codice, consentendo agli LLM di ragionare su milioni di token senza bisogno di riqualificazione. Ciò offre alle aziende un percorso pratico per svolgere attività a lungo termine come l’analisi della base di codice, la revisione legale e il ragionamento in più fasi che regolarmente rompono i modelli odierni.
Poiché il framework è progettato per adattarsi ai modelli esistenti, può fungere da fallback per le applicazioni che fanno appello direttamente ai LLM.
Problema di contesto del Master
Sebbene i modelli di confine diventino sempre più complessi in termini di ragionamento, la loro capacità di elaborare grandi quantità di informazioni non aumenta allo stesso ritmo. Questo collo di bottiglia deriva da due diverse limitazioni: il rigido vincolo fisico sulla quantità di testo che un modello può elaborare contemporaneamente (lunghezza del contesto) e "decadimento del contesto."
La sfida che i ricercatori pongono è se sia possibile ridimensionare la dimensione effettiva del contesto dei LLM di uso generale per ordini di grandezza senza riqualificarli. Questa capacità sta diventando sempre più importante per le applicazioni aziendali in cui gli LLM vengono adottati per attività a lungo termine che richiedono l’elaborazione di milioni di token; È una sfida che, secondo Zhang, non può essere risolta semplicemente espandendo le finestre di contesto.
"Esiste un argomento entropico che implica che sono necessari esponenzialmente più campioni di dati man mano che si aumenta la dimensione effettiva della finestra del contesto." Alex Zhang, coautore dello studio, ha detto a VentureBeat:
Gli attuali approcci all’espansione del contesto spesso si basano sulla compressione, in cui il modello riassume le parti più vecchie del discorso per fare spazio. Tuttavia, questo metodo fallisce nelle attività che richiedono l’accesso arbitrario a dettagli specifici trovati nelle parti precedenti del prompt.
Come funzionano gli RLM?
Il concetto alla base degli RLM è tratto da: "non fondamentale" Algoritmi utilizzati nell’informatica classica. Questi algoritmi sono progettati per elaborare set di dati troppo grandi per essere contenuti nella memoria principale del computer, mantenendo i dati su un disco rigido e recuperando solo i pezzi necessari quando necessario.
Gli RLM applicano questa logica all’intelligenza artificiale generativa. Invece di inviare un lungo prompt direttamente alla rete neurale, il framework carica il testo come variabile stringa nell’ambiente di codifica Python. A LLM viene fornito un contesto generale sui dati (come il numero totale di caratteri) ma "Da vedere" testo all’inizio.
LLM agisce come un programmatore quando il prompt viene memorizzato come variabile. Scrive codice Python per interagire con la variabile esterna utilizzando comandi standard per sfogliare i dati. Ad esempio, il modello può utilizzare le espressioni regolari per cercare parole chiave specifiche, come: "Parte 1" O "risultati finanziari."
Quando l’esecuzione del codice trova uno snippet rilevante, RLM inserisce solo quello specifico snippet nella finestra del contesto attivo per l’analisi.
Ad esempio, se il prompt è un libro molto grande, LLM potrebbe scrivere un ciclo che definisce i limiti del capitolo e quindi attivare una chiamata secondaria per riepilogare ciascun capitolo individualmente.
L’architettura tipicamente include due agenti. UN. "modello linguistico radice," di solito un modello ad alta capacità come GPT-5 funge da orchestratore. Pianifica l’approccio, scrive il codice e gestisce il flusso dati in ambiente REPL. UN. "modello linguistico ricorsivo," di solito un modello più veloce ed economico funge da lavoratore. Il LM root chiama questo lavoratore per elaborare frammenti di testo specifici isolati dal codice.
Poiché il prompt risiede nella memoria dell’ambiente anziché nella finestra di contesto del modello, il sistema può gestire input molto più grandi del limite di training del modello. Ancora più importante, per l’utente finale, RLM si comporta esattamente come un modello standard: accetta una stringa e restituisce una risposta. Ciò consente ai team aziendali di sostituire le chiamate API standard per gli RLM.
Per gli sviluppatori che desiderano provarlo, il codice RLM è attualmente disponibile all’indirizzo: GitHub.
"Un argomento importante a favore degli RLM è che le attività più complesse possono essere scomposte in sottoattività più piccole e “locali”." disse Zhang. "Tuttavia, il modo in cui si ottiene questa separazione contesto/problema non è banale e il modello deve essere in grado di raggiungere questo obiettivo."
RLM in azione
Per convalidare il quadro, i ricercatori hanno testato gli RLM rispetto a modelli di base e altri approcci agenti e strumenti di astrazione come CodeAct su una varietà di attività a lungo contesto, tra cui il recupero e la risposta a domande multi-hop.
I risultati hanno mostrato forti miglioramenti delle prestazioni su una scala di oltre 10 milioni di token. Aprire SfogliaComp-PlusI modelli base standard, un benchmark che prevedeva da 6 a 11 milioni di input di token, hanno fallito completamente, ottenendo un punteggio dello 0%. Al contrario, sostenuto da RLM GPT-5 Ha ottenuto un punteggio del 91,33%, superando significativamente Summary Broker (70,47%) e Legge sul codice (51%).
Il framework ha funzionato bene anche su compiti con elevata complessità computazionale. Su OOLONG-Pairs, un benchmark di ragionamento ad alta intensità di conoscenza in cui la difficoltà scala quadraticamente con la lunghezza dell’input, i modelli GPT-5 di base hanno fallito disastrosamente con un punteggio di appena lo 0,04%. RLM ha ottenuto un punteggio F1 (una misura equilibrata di precisione e richiamo) del 58%, dimostrando le capacità emergenti di affrontare compiti intensivi che paralizzano i modelli standard. Allo stesso modo, sulle attività di comprensione del codice (benchmark CodeQA), RLM ha più che raddoppiato le prestazioni del modello GPT-5 di base, dal 24% al 62%.
Per quanto riguarda il problema del degrado del contesto, i dati hanno mostrato che le prestazioni GPT-5 di base sono diminuite rapidamente con l’aumentare della complessità delle attività, mentre le prestazioni RLM sono rimaste stabili e hanno costantemente sovraperformato il modello di base su contesti più lunghi di 16.000 token.
Nonostante la crescente complessità del flusso di lavoro, gli RLM spesso mantenevano costi medi paragonabili o inferiori a quelli di base. Nel confronto BrowComp-Plus, RLM è stato fino a tre volte più economico rispetto alla base di riepilogo.
Tuttavia, i ricercatori hanno scoperto che, sebbene i costi medi fossero bassi, le traiettorie RLM "coda lunga" Le esecuzioni anomale possono diventare costose se il modello rimane bloccato in cicli o esegue convalide non necessarie. Open source, sebbene conservatore nelle sottochiamate GPT-5 Codificatore Qwen3 Il modello a volte tentava migliaia di sottochiamate per compiti semplici.
"Oggi probabilmente dovrai implementare i tuoi guardrail e la tua logica per controllare il comportamento RLM." disse Zhang. Ma egli ipotizza che i modelli futuri possano essere addestrati a gestire i loro budget informatici in modo più efficace. Aziende come Prime Intellect intendono: Integra RLM incorporando modelli nel processo di formazione ed eventualmente gestendo casi limite in cui il budget di inferenza del modello aumenta.
Per gli architetti aziendali che devono decidere dove piazzare le proprie scommesse, il framework RLM offre un nuovo strumento per affrontare problemi ad alta intensità di conoscenza.
"Penso che gli RLM siano ancora estremamente utili per i chatbot (si pensi alle lunghe cronologie delle chat), ma alla fine sostengono un modo alternativo di utilizzare gli LM," disse Zhang. "Penso che gli RLM funzionino con metodi di accesso standard come RAG; Non li sostituiscono, possono essere utilizzati in ambienti diversi o insieme."















