Un nuovo studio condotto da ricercatori della Stanford University e Nvidia suggerisce un modo in cui i modelli di intelligenza artificiale possono continuare ad apprendere dopo l’implementazione senza aumentare i costi di inferenza. Per gli agenti aziendali che devono digerire documenti, ticket e registri lunghi, questo è un tentativo di ottenere una “memoria lunga” senza prestare attenzione ai costi che aumentano con la lunghezza del contesto.
Avvicinamento”Formazione sui tempi di test end-to-end(TTT-E2E) riformula la modellazione del linguaggio come un problema di apprendimento continuo: invece di memorizzare i fatti durante la formazione preliminare, i modelli imparano come adattarsi in tempo reale mentre elaborano nuove informazioni.
Il risultato è un trasformatore in grado di eguagliare la precisione a lungo contesto dei modelli a piena attenzione operando con un’efficienza prossima alla RNN; Si tratta di una potenziale svolta per i carichi di lavoro aziendali in cui la lunghezza del contesto è in conflitto con i costi.
Bilancio accuratezza-efficienza
Per gli sviluppatori che creano sistemi di intelligenza artificiale per lunghe attività documentali, la scelta di un’architettura modello spesso richiede un doloroso compromesso tra accuratezza ed efficienza.
Da un lato ci sono i Transformers, completamente consapevoli di sé, che attualmente rappresentano il gold standard in termini di precisione. È progettato per scansionare le chiavi e i valori di tutte le monete precedenti per ogni nuova moneta prodotta e fornirne un richiamo senza perdite. Tuttavia, questa precisione ha un costo elevato: il costo computazionale per token aumenta in modo significativo con la lunghezza del contesto.
D’altro canto, esistono modelli di serie temporali lineari che mantengono costanti i costi di inferenza ma hanno difficoltà a conservare le informazioni in contesti molto lunghi.
Altri approcci (attenzione tramite finestra scorrevole, ibridi che combinano attenzione con iterazione e altri trucchi di efficienza) cercano di dividere la differenza, ma non riescono ancora a raggiungere la piena attenzione nella modellazione del linguaggio duro.
L’affermazione dei ricercatori è che la compressione è l’ingrediente mancante: invece di cercare di ricordare esattamente ogni token, i modelli dovrebbero distillare ciò che è importante in uno stato compatto.
Formazione sul tempo di prova
La principale innovazione dell’articolo è l’applicazione del Test Time Training (TTT) alla modellazione linguistica. Ciò trasforma il modello da un database statico in uno studente flessibile.
Nella distribuzione IA standard, i modelli vengono addestrati per ridurre al minimo le perdite e quindi distribuiti come strutture congelate. Se provi a fare in modo che un modello statico apprenda durante la distribuzione, spesso avrà prestazioni inferiori perché non è mai stato addestrato ad aggiornarsi in modo efficiente.
I ricercatori risolvono questo problema passando dalla formazione preliminare standard (insegnando i fatti del modello) al meta-apprendimento (insegnando al modello come apprendere). Lo scopo è ottimizzare il modello. "inizializzazione" in modo che possa assorbire rapidamente nuove informazioni quando vengono pubblicate.
Il processo prevede la simulazione dell’apprendimento del tempo di inferenza nella fase di training:
-
Ciclo interno (impara): Durante l’addestramento, il modello tratta il testo come un flusso ed esegue piccoli aggiornamenti temporanei prevedendo il token successivo; questo simula il modo in cui il testo si adatterà all’inferenza.
-
Ciclo esterno (insegnare ad imparare): Il sistema aggiorna quindi l’inizializzazione del modello in modo che il ciclo successivo di adattamento del flusso sia più rapido e accurato.
Mentre l’idea di un modello che cambia peso durante l’implementazione può sembrare rischiosa ai leader aziendali concentrati sull’affidabilità, il coautore Yu Sun sostiene che è matematicamente più sicuro di quanto sembri.
“Bisogna pensare al modello come a una RNN con un ampio stato nascosto”, afferma Sun. Egli osserva che se un’azienda si sente sicura nell’implementazione di Transformer o RNN standard, il profilo di stabilità di TTT sarà simile.
Architettura a doppia memoria
Per implementare TTT-E2E, i ricercatori hanno modificato l’architettura standard di Transformer per supportare questo nuovo paradigma di apprendimento, creando una gerarchia che separa l’elaborazione poco costosa del contesto a breve termine dagli aggiornamenti selettivi della memoria a lungo termine.
-
TIl modello utilizza l’attenzione della finestra scorrevole anziché l’attenzione completa. Questo serve da modello "memoria di lavoro," Basta guardare una finestra fissa di token finali per gestire al volo la sintassi e i riferimenti locali. Ciò garantisce che il costo di mining di un nuovo token rimanga costante anziché aumentare con l’espansione del contesto.
-
Il modello utilizza “aggiornamenti di peso mirati”. Mentre i modelli standard congelano completamente i pesi durante l’uso, il TTT-E2E specifica che alcune sezioni (gli strati Multilayer Perceptron nell’ultimo 25% dei blocchi del modello) sono intercambiabili.
-
L’architettura utilizza la “archiviazione a doppia linea” per evitare che il modello venga dimenticato istruzione generale quando si apprende un nuovo documento. Ogni blocco aggiornabile contiene due componenti MLP: un livello statico che ospita informazioni globali pre-addestrate e un livello dinamico che si aggiorna in tempo reale per archiviare il contenuto del documento corrente.
L’innovazione sta nel modo in cui il modello gestisce le informazioni che cadono attraverso la finestra scorrevole. Nel modello standard con finestra scorrevole, la moneta viene dimenticata quando scompare dalla vista. TTT-E2E impedisce ciò attraverso la compressione. Mentre la finestra si sposta, il modello utilizza la previsione della moneta successiva. "comprimere" trasferendo le informazioni direttamente ai pesi degli strati MLP dinamici. Funziona come una memoria a lungo termine combinando i contorni e i fatti delle sezioni precedenti del documento nella struttura del modello.
TTT-E2E in azione
Conclusione del titolo: TTT-E2E continua a migliorare man mano che la lunghezza del contesto aumenta, corrispondendo o superando la piena attenzione, e le linee di base efficienti rimangono stabili dopo circa 32.000 token.
Per convalidare il loro approccio, i ricercatori hanno addestrato modelli che vanno da 125 milioni a 3 miliardi di parametri. Hanno utilizzato un processo di formazione in due fasi: preformazione su contesti da 8.000 token e messa a punto su contesti da 128.000 token. Questi modelli sono stati accuratamente testati rispetto a solide basi, tra cui Transformers, Sliding Window Careful Transformers (SWA), modelli ibridi (Mamba 2 e Gated DeltaNet) e TTT-KVB (una vecchia forma di addestramento in fase di test).
I risultati evidenziano un progresso significativo nel ridimensionamento. L’esperimento più critico ha testato le prestazioni quando il documento di input è aumentato da 8.000 token a 128.000 token. Il gold standard, il Full Attention Transformer, ha continuato a migliorare le sue prestazioni (low loss) al crescere del contesto. Al contrario, le prestazioni di linee di base efficienti come Mamba 2, Gated DeltaNet e SWA diminuiscono o si stabilizzano dopo 32.000 token.
Il nuovo metodo TTT-E2E è stato adattato con successo alla lunghezza del contesto imitando il comportamento di piena attenzione. Negli esperimenti che utilizzano modelli di parametri 3D, TTT-E2E ha effettivamente mantenuto una sorpresa inferiore (prestazioni migliori) rispetto alla piena attenzione nella finestra di contesto.
Fondamentalmente, questa prestazione non è andata a scapito della velocità. Nella latenza di inferenza, TTT-E2E ha eguagliato l’efficienza degli RNN. Con una lunghezza del contesto di 128.000 token, TTT-E2E era 2,7 volte più veloce del Full-Attention Transformer sull’hardware Nvidia H100.
Fondamentale per l’adozione, Sun sottolinea che i modelli TTT possono essere implementati oggi per l’inferenza sull’infrastruttura Transformer standard per ottenere questi acceleramenti. Tuttavia, avverte che l’aspetto dell’addestramento dell’equazione (in particolare il ciclo esterno) è attualmente più complesso e più lento rispetto ai metodi standard e rimane un ostacolo che necessita di ottimizzazione ingegneristica.
Man mano che i dati crescono, i vantaggi diventano più evidenti. Sun sostiene che il vantaggio dovrebbe essere ancora maggiore nei contesti da un milione di monete; ma queste cifre sono proiezioni piuttosto che distribuzioni di riferimento odierne.
Tuttavia, l’approccio presenta alcune limitazioni derivanti dalla filosofia progettuale. Ricercatori A "L’ago nel pagliaio" Test che richiede al modello di recuperare un’informazione specifica e isolata (come una password) nascosta in un grande blocco di testo. In questa valutazione, Full Attention ha sovraperformato significativamente tutti gli altri metodi, incluso TTT-E2E.
Questo perché Full Attention si basa su una cache che consente di ricordare determinati dettagli quasi senza perdite, mentre TTT-E2E si basa sulla compressione. La compressione cattura perfettamente l’intuizione e le informazioni di base, ma può perdere alcuni dettagli casuali che non si adattano ai modelli appresi.
Questa distinzione ha implicazioni significative per le pipeline di dati aziendali, in particolare per RAG. Sun sostiene che TTT non sostituirà RAG, ma lo ridefinirà. Paragona TTT a questo: "aggiornare il cervello umano" Sebbene RAG rimanga uno strumento essenziale per la precisione, insieme alla conoscenza generale, "Come se le persone avessero ancora bisogno di scrivere cose su un quaderno." La conclusione per i team aziendali è che TTT riduce la frequenza di recupero dei dati, ma non elimina esattamente la necessità di memoria esterna.
Anche se la tecnica è stata dimostrata nell’architettura Transformer, i ricercatori notano che “in linea di principio, TTT può essere applicata a qualsiasi architettura sottostante”, consentendo la separazione dei componenti della memoria a lungo e a breve termine.
“Crediamo che queste due classi di memoria continueranno a completarsi a vicenda." I ricercatori hanno concluso:
Guardando al futuro, Sun prevede un cambiamento di paradigma in cui la forma primaria di memoria AI sarà altamente compressa anziché precisa. Mentre i modelli mantengono una caratteristica "logico" Crede che le architetture TTT, che hanno una finestra di richiamo perfetta di circa 128.000 token, prima o poi ne sbloccheranno una. "Memoria compressa di miliardi di monete," fondamentalmente sta cambiando il modo in cui gli agenti aziendali bilanciano ricordo, costo e durata del contesto.















