I ricercatori di Google hanno sviluppato un nuovo paradigma di intelligenza artificiale che mira a risolvere uno dei maggiori limiti dei grandi modelli linguistici odierni: la loro incapacità di apprendere o aggiornare le proprie conoscenze dopo la formazione. chiamato paradigma Apprendimento nidificatoRiformula un modello e il suo addestramento non come un singolo processo ma come un sistema di problemi di ottimizzazione annidati e multilivello. I ricercatori sostengono che questo approccio potrebbe sbloccare algoritmi di apprendimento più significativi, portando a un migliore apprendimento e memoria nel contesto.

Per dimostrare il loro concetto, i ricercatori hanno sviluppato un nuovo modello chiamato Hope utilizzando il Nested Learning. I primi esperimenti mostrano che ha prestazioni superiori nella modellazione del linguaggio, nell’apprendimento continuo e in compiti di ragionamento contestuale lungo, aprendo potenzialmente la strada a sistemi di intelligenza artificiale efficienti in grado di adattarsi agli ambienti del mondo reale.

Problema di memoria di grandi modelli linguistici

Algoritmi di apprendimento profondo Ha contribuito a eliminare la necessità di un’attenta progettazione e competenza nel settore richiesta dal tradizionale machine learning. Fornendo grandi quantità di dati ai modelli, possono apprendere da soli le rappresentazioni necessarie. Ma questo approccio ha comportato le sue sfide, come la generalizzazione a nuovi dati, l’apprendimento costante di nuovi compiti e l’evitare soluzioni non ottimali durante la formazione, che non possono essere risolte semplicemente impilando più livelli o costruendo reti più grandi.

Gli sforzi per superare queste sfide hanno portato a innovazioni. trasformatoriè la base degli odierni modelli linguistici di grandi dimensioni (LLM). Questi modelli hanno aperto nuove strade "Un cambiamento di paradigma da modelli specifici per attività a sistemi più generici con una varietà di capacità emergenti, come risultato del ridimensionamento delle architetture “giuste”," scrivono i ricercatori. Tuttavia rimane una limitazione fondamentale: i master rimangono in gran parte statici dopo la formazione e non sono in grado di aggiornare le proprie conoscenze di base o acquisire nuove competenze da nuove interazioni.

L’unico componente adattabile di un LLM è apprendimento in contesto Questa capacità gli consente di eseguire attività in base alle informazioni fornite nel prompt dei comandi istantaneo. Questo confronta gli attuali LLM con una persona che non può formare nuovi ricordi a lungo termine. La loro conoscenza è limitata a ciò che hanno imparato prima della formazione (passato lontano) e a ciò che si trova nella finestra del contesto attuale (presente presente). Una volta che una conversazione supera la finestra di contesto, queste informazioni vengono perse per sempre.

Il problema è che gli attuali LLM basati sui trasformatori non dispongono di alcun meccanismo per il consolidamento “online”. Le informazioni nella finestra di contesto non aggiornano mai i parametri a lungo termine del modello (i pesi memorizzati nei livelli feedforward). Di conseguenza, il modello non può acquisire in modo permanente nuove conoscenze o competenze dalle interazioni; Tutto ciò che ha imparato viene perso quando si apre la finestra di contesto.

Un approccio intrecciato all’apprendimento

Nested Learning (NL) è progettato per consentire ai modelli computazionali di apprendere dai dati utilizzando diversi livelli di astrazione e scale temporali, in modo simile al cervello. Tratta un singolo modello di machine learning non come un processo continuo, ma come un sistema di problemi di apprendimento interconnessi che vengono ottimizzati simultaneamente a velocità diverse. Si tratta di una deviazione dalla visione classica che tratta l’architettura di un modello e l’algoritmo di ottimizzazione come due componenti separati.

Secondo questo paradigma, il processo educativo è visto come un processo di sviluppo. "memoria relazionale," La capacità di collegare e richiamare informazioni correlate. Il modello impara a mappare un punto dati al suo errore locale; "Sorprendente" questo punto dati era. Anche i componenti architettonici di base, come il meccanismo di attenzione nei trasformatori, possono essere visti come semplici moduli di memoria associativa che apprendono le mappature tra i simboli. Definendo una frequenza di aggiornamento per ciascun componente, questi problemi di ottimizzazione annidati possono essere ordinati in diverse categorie. "livelli," Costituisce il nucleo del paradigma NL.

Spero in un apprendimento continuo

I ricercatori hanno messo in pratica questi principi con Hope, un’architettura progettata per incorporare il Nested Learning. La speranza è una versione modificata titaniUn’altra architettura introdotta da Google a gennaio per risolvere i limiti di memoria del modello Transformer. Sebbene i Titani avessero un potente sistema di memoria, i loro parametri venivano aggiornati solo a due velocità diverse: il modulo di memoria a lungo termine e il meccanismo di memoria a breve termine.

La speranza è un’architettura che cambia se stessa e "Sistema di memoria continua" (CMS) consente livelli illimitati di apprendimento nel contesto e si adatta a finestre di contesto più ampie. Il CMS agisce come una serie di banchi di memoria, ciascuno aggiornato con una frequenza diversa. Le banche con aggiornamento più rapido gestiscono informazioni immediate, mentre quelle più lente consolidano informazioni più astratte su periodi di tempo più lunghi. Ciò consente al modello di ottimizzare la propria memoria in un ciclo autoreferenziale, creando un’architettura con livelli di apprendimento teoricamente infiniti.

In una varietà di modelli linguistici e compiti di ragionamento basati sul buon senso, Hope ha mostrato una minore perplessità (una misura di quanto bene un modello predice la parola successiva in una sequenza e mantiene la coerenza nel testo che produce) e una maggiore precisione sia rispetto ai trasformatori standard che ad altri moderni modelli ricorrenti. Anche la speranza ha ottenuto risultati migliori nel contesto lungo "L’ago nel pagliaio" Attività in cui un modello deve trovare e utilizzare un’informazione specifica nascosta in grandi quantità di testo. Ciò suggerisce che CMS offre un modo più efficiente per elaborare lunghe stringhe di informazioni.

Questo è uno dei numerosi sforzi per creare sistemi di intelligenza artificiale che elaborino le informazioni a diversi livelli. Modello di ragionamento gerarchico Il modello di Sapient Intelligence (HRM) utilizzava un’architettura gerarchica per rendere i compiti di ragionamento più efficienti nell’apprendimento. Piccolo modello di ragionamento (TRM), un modello di Samsung, migliora l’HRM apportando modifiche all’architettura, aumentandone le prestazioni e rendendolo più efficiente allo stesso tempo.

Sebbene promettente, il Nested Learning deve affrontare le stesse sfide di altri paradigmi per realizzare il suo pieno potenziale. Gli attuali stack hardware e software di intelligenza artificiale sono fortemente ottimizzati, in particolare per le architetture classiche di deep learning e i modelli Transformer. L’adozione su larga scala del Nested Learning potrebbe richiedere cambiamenti fondamentali. Tuttavia, se dovesse guadagnare terreno, potrebbe portare a LLM molto più produttivi e capaci di apprendimento continuo; Si tratta di una funzionalità cruciale per le applicazioni aziendali del mondo reale in cui gli ambienti, i dati e le esigenze degli utenti sono in costante cambiamento.

Collegamento alla fonte