I ricercatori di Google hanno sviluppato una tecnica che rende più facile per i modelli di intelligenza artificiale apprendere compiti di ragionamento complessi che spesso causano allucinazioni o disorientamento nei LLM. Invece di addestrare gli LLM tramite la previsione della moneta successiva, la loro tecnica apprendimento per rinforzo interno (RL interno) dirige le attivazioni interne del modello per sviluppare una soluzione passo passo di alto livello al problema di input.
In definitiva, ciò potrebbe fornire un modo scalabile per costruire agenti autonomi in grado di gestire ragionamenti complessi e robotica del mondo reale senza la necessità di una guida manuale costante.
Limiti della previsione della prossima moneta
apprendimento per rinforzo Svolge un ruolo importante nei LLM post-formazione, in particolare in compiti di ragionamento complessi che richiedono una pianificazione a lungo termine. Tuttavia, il problema risiede nell’architettura di questi modelli. Gli LLM sono autoregressivi, nel senso che producono sequenze di monete una alla volta. Quando questi modelli scoprono nuove strategie durante l’addestramento, lo fanno apportando piccole modifiche casuali al token o all’azione successiva. Ciò rivela una limitazione più profonda: la previsione del token successivo costringe i modelli a cercare soluzioni al livello sbagliato di astrazione, rendendo inefficiente il ragionamento a lungo orizzonte anche quando il modello “sa” cosa fare.
Questo approccio token per token funziona bene per la modellazione linguistica di base, ma fallisce su compiti a lungo orizzonte in cui le ricompense sono scarse. Se il modello si basa esclusivamente sul campionamento casuale a livello di token, la probabilità di incontrare la soluzione multi-step corretta è estremamente ridotta, "circa uno su un milione," Secondo i ricercatori.
Il problema non è solo che i modelli sono confusi; È solo che sono confusi al livello sbagliato. In un’attività composta da 20 passaggi, un agente può perdersi nei minimi dettagli di un singolo passaggio o perdere traccia dell’obiettivo generale, ha scritto Yanick Schimpf, coautore dell’articolo, in un commento a VentureBeat.
"Sosteniamo che quando incontri un problema con una struttura astratta… (esplorazione orientata agli obiettivi) è ciò che desideri," disse Schimpf. L’agente si impegna a trovare un modo per risolvere il problema innanzitutto a livello astratto e si assicura che ciò non venga fatto. "perdersi in uno dei passaggi del ragionamento" e mancato completamento del flusso di lavoro più ampio.
Per risolvere questo problema, il campo si è da tempo rivolto all’apprendimento per rinforzo gerarchico. Piuttosto che gestire un compito come una sequenza di token, HRL tenta di risolvere problemi complessi scomponendoli temporalmente in una gerarchia di azioni astratte (subroutine di livello superiore che rappresentano diverse fasi della soluzione).
Ma scoprire queste subroutine adatte rimane una sfida di lunga data. I metodi HRL esistenti spesso non riescono a trovare politiche adeguate. "convergenza verso opzioni degenerate" quelli che non rappresentano un comportamento significativo. Anche i metodi moderni e sofisticati come GRPO (un popolare algoritmo RL utilizzato per compiti di ricompensa sparsa) falliscono in ambienti complessi perché non possono colmare efficacemente il divario tra esecuzione di basso livello e pianificazione di alto livello.
Dirigere i pensieri interiori del Maestro
Per superare queste limitazioni, il team di Google ha proposto RL interno. Modelli autoregressivi già sviluppati "Sapere" Come eseguire attività complesse in più fasi internamente, anche se non sono esplicitamente formati a farlo.
Poiché questi comportamenti complessi sono nascosti nel flusso residuo del modello (cioè i valori numerici che trasportano le informazioni attraverso gli strati della rete), i ricercatori "controller di rete neurale integrato," o metacontrollore. Invece di monitorare e modificare il token di output, il metacontroller controlla il comportamento del modello applicando modifiche alle attivazioni interne del modello negli strati intermedi.
Questa spinta dirige il modello verso un certo stato utile. Il modello base genera quindi automaticamente la sequenza dei singoli passaggi necessari per raggiungere questo obiettivo perché ha già visto questi modelli durante il pre-addestramento iniziale.
Il metacontroller funziona tramite apprendimento non supervisionato e non richiede esempi di formazione etichettati come esseri umani. Invece, i ricercatori utilizzano un quadro di auto-supervisione in cui il modello analizza l’intera sequenza di comportamento e lavora a ritroso per estrarre l’intento nascosto, di livello superiore, che meglio spiega le azioni.
Nella fase RL interna, vengono applicati aggiornamenti al meta-checker, che sposta l’addestramento dalla previsione della moneta successiva all’apprendimento di azioni di livello superiore che possono portare alla soluzione.
Per comprenderne il valore pratico, si consideri un agente aziendale incaricato di generare codice. Oggi c’è un difficile compromesso: hai bisogno "bassa temperatura" (prevedibilità) per ottenere la sintassi corretta, ma "alta temperatura" (creatività) per risolvere il puzzle logico.
"Il RL interno può facilitare ciò consentendo al modello di esplorare lo spazio delle azioni astratte, ovvero strutturando chiamate logiche e di metodo, e delegando l’esecuzione di queste azioni a livello di token alla distribuzione robusta e di temperatura inferiore del modello sottostante." disse Schimpf. Lo strumento cerca la soluzione senza interrompere la sintassi.
I ricercatori hanno esplorato due metodi per implementare questo controller. Nel primo, il modello autoregressivo di base viene pre-addestrato su un set di dati comportamentali e poi congelato mentre il metacontrollore viene addestrato a dirigere il flusso residuo del modello congelato. Nella seconda, il metacontrollore e il modello sottostante vengono ottimizzati congiuntamente aggiornando simultaneamente i parametri di entrambe le reti.
RL interno in azione
Per valutare l’efficacia dell’RL interno, i ricercatori hanno condotto esperimenti in ambienti gerarchici progettati per confondere gli studenti tradizionali. Questi includevano un mondo a griglia separato e una missione di controllo continuo con un sistema a quattro gambe. "formica" Il robot deve coordinare i movimenti articolari. Entrambi gli ambienti utilizzavano ricompense sparse con sequenze d’azione molto lunghe.
Mentre fondazioni come GRPO e CompILE non riescono ad apprendere compiti in un milione di episodi a causa della difficoltà di allocazione dei crediti a lungo termine, RL interna ha raggiunto tassi di successo elevati con un numero limitato di episodi di formazione. Scegliendo obiettivi di alto livello anziché piccoli passi, il metacontrollore ha ridotto notevolmente lo spazio di ricerca. Ciò ha consentito al modello di determinare quali decisioni di alto livello hanno portato al successo, rendendo l’allocazione del credito sufficientemente efficiente da risolvere il problema della scarsa ricompensa.
Nello specifico, i ricercatori hanno scoperto che: "congelato" Il suo approccio era superiore. Quando il modello base e il metacontroller sono stati addestrati insieme da zero, il sistema non è riuscito a sviluppare astrazioni significative. Tuttavia, quando applicato a un modello congelato, il meta-checker ha scoperto con successo i punti di controllo chiave senza alcuna etichettatura umana, allineando perfettamente il meccanismo di commutazione interno con i momenti di verità fondamentale in cui un agente termina un sottoobiettivo e inizia quello successivo.
Poiché l’industria si sta attualmente concentrando su modelli di ragionamento che forniscano risultati dettagliati "catene di pensiero" La ricerca di Google per la risoluzione dei problemi punta a un futuro diverso, forse più produttivo.
"Il nostro studio si unisce a un crescente corpus di lavori che suggeriscono che il “ragionamento interno” non è solo fattibile ma anche potenzialmente più efficiente degli approcci basati su token." Ha detto vergogna. "Inoltre, questi “pensieri” silenziosi possono essere isolati da specifiche modalità di input; Questa è una caratteristica che potrebbe essere particolarmente importante per il futuro dell’IA multimodale."
Se il ragionamento interno potesse essere diretto senza essere esternalizzato, il futuro degli agenti di intelligenza artificiale potrebbe dipendere meno dalle strategie di incentivazione e più dalla capacità di accedere e manipolare i modelli attualmente rappresentati internamente. Per le aziende che investono in sistemi autonomi che devono pianificare, adattarsi e agire su orizzonti a lungo termine, questo cambiamento potrebbe essere più importante di qualsiasi nuovo criterio di ragionamento.















