I ricercatori di Meta FAIR e dell’Università di Edimburgo hanno sviluppato una nuova tecnica in grado di prevedere la correttezza della logica di un modello linguistico di grandi dimensioni (LLM) e persino di intervenire per correggerne gli errori. nel nome Verifica del ragionamento basato su circuiti Il metodo (CRV) esamina l’interno di un LLM per monitorare i suoi “circuiti di ragionamento” interni e rilevare segni di errori computazionali mentre il modello risolve un problema.

I risultati mostrano che CRV può rilevare errori di ragionamento negli LLM con elevata precisione creando e osservando un grafico computazionale dalle attivazioni interne del modello. Con una svolta significativa, i ricercatori hanno anche dimostrato di poter utilizzare questa profonda conoscenza per implementare interventi mirati in grado di correggere istantaneamente il ragionamento errato di un modello.

Questa tecnica potrebbe aiutare a risolvere una delle maggiori sfide dell’intelligenza artificiale: garantire che la logica di un modello sia fedele e accurata. Questo potrebbe essere un passo fondamentale verso la creazione di applicazioni IA più affidabili per le aziende, dove l’affidabilità è fondamentale.

Investigare il ragionamento basato sulla catena di pensiero

Il ragionamento della catena di pensiero (CoT) è stato un metodo potente per migliorare le prestazioni degli LLM su compiti complessi ed è stato una componente chiave del successo di modelli di ragionamento come la serie o OpenAI. DeepSeek-R1.

Tuttavia, nonostante il suo successo, CoT non è completamente affidabile. Il processo di ragionamento stesso è spesso imperfetto e Molto studi Mostriamo che i token CoT generati da un LLM non sono sempre una rappresentazione fedele del processo di ragionamento interno.

Le attuali soluzioni per verificare CoT rientrano in due categorie principali. Gli approcci “scatola nera” analizzano il token finale generato o i punteggi di fiducia di diverse opzioni di token. Gli approcci “scatola grigia” fanno un ulteriore passo avanti e esaminano lo stato interno del modello utilizzando semplici sonde sulle attivazioni neurali grezze.

Tuttavia, sebbene questi metodi possano rilevare che lo stato interno di un modello è associato a un errore, non sono in grado di spiegarlo. Da dove Il calcolo di base non è riuscito. Si tratta di una lacuna significativa per le applicazioni del mondo reale in cui è fondamentale comprendere la causa principale di un guasto.

Approccio white box alla verifica

CRV si basa sull’idea che i modelli eseguono attività utilizzando sottografi speciali o "circuiti," Il numero di neuroni che funzionano come algoritmi segreti. Quindi, se il ragionamento del modello fallisce, è a causa di un difetto nell’esecuzione di uno di questi algoritmi. Ciò significa che possiamo diagnosticare la causa del difetto esaminando il processo computazionale sottostante, in modo simile a come gli sviluppatori esaminano le tracce di esecuzione per eseguire il debug del software tradizionale.

Per rendere ciò possibile, i ricercatori innanzitutto rendono interpretabile la SM target. Sostituiscono gli strati densi standard di blocchi di trasformatori con quelli addestrati "transcodificatori." Il transcodificatore è uno speciale componente di deep learning che costringe il modello a rappresentare i suoi calcoli intermedi come un insieme sparso e significativo di caratteristiche, piuttosto che come un vettore di numeri denso e illeggibile. I convertitori sono simili a: codificatori automatici sparsi (SAE) vengono utilizzati negli studi di interpretabilità meccanicistica con la differenza che preservano anche la funzionalità della rete che emulano. Questa modifica installa effettivamente una porta diagnostica nel modello, consentendo ai ricercatori di osservare il funzionamento interno del modello.

Quando viene applicato questo modello interpretabile, il processo CRV si svolge in più fasi. Per ogni passo di ragionamento intrapreso dal modello, CRV è a "grafico di attribuzione" Mappatura del flusso causale di informazioni tra le proprietà interpretabili del transcodificatore e i token che elabora. Fa un’inferenza da questo grafico. "impronta strutturale" Contiene un insieme di proprietà che descrivono le caratteristiche del grafico. Infine, su queste impronte digitali viene addestrato un modello di “classificatore diagnostico” per prevedere se il passaggio del ragionamento è corretto.

Al momento dell’inferenza, il classificatore monitora le attivazioni del modello e fornisce feedback sul fatto che la traccia di ragionamento del modello sia sulla strada giusta.

Trovare e correggere gli errori

I ricercatori hanno testato i loro metodi 3.1 Chiama 8B Insegna il modello modificato con i transcodificatori valutandolo su un mix di set di dati sintetici (booleani e aritmetici) e reali (problemi di matematica GSM8K). Hanno confrontato CRV con un set completo di linee di base black-box e grey-box.

I risultati forniscono un forte supporto empirico all’ipotesi centrale: le firme strutturali nella traccia computazionale di un passaggio di ragionamento contengono un segnale verificabile della sua correttezza. CRV ha costantemente sovraperformato tutti i metodi di base per ogni set di dati e metrica, dimostrando che una visione approfondita e strutturata del calcolo del modello è più potente dell’analisi a livello superficiale.

È interessante notare che l’analisi ha rivelato che le firme degli errori erano altamente specifiche del dominio. Ciò significa che i fallimenti nei diversi compiti di ragionamento (logica formale e calcolo aritmetico) si manifestano come diversi modelli di calcolo. Un classificatore addestrato a rilevare errori in un dominio non si trasferisce bene in un altro; Ciò sottolinea che diversi tipi di ragionamento si basano su diversi circuiti interni. In pratica, ciò significa che potrebbe essere necessario addestrare un classificatore separato per ogni attività (ma il transcodificatore rimane invariato).

Ma la scoperta più importante è che questi segnali di errore non sono solo correlazionali ma anche causali. Poiché CRV fornisce una visione trasparente del calcolo, un errore previsto può essere ricondotto a un componente specifico. In un caso di studio, il modello ha commesso un errore nell’ordine delle operazioni. CRV ha segnato il mio nome e ha stabilito: "impatto" la funzionalità veniva attivata in anticipo. I ricercatori sono intervenuti sopprimendo manualmente questa singola caratteristica, e il modello ha subito corretto il suo percorso, risolvendo correttamente il problema.

Questo lavoro rappresenta un passo verso una scienza più rigorosa sull’interpretabilità e sul controllo dell’intelligenza artificiale. Come conclude l’articolo, “questi risultati stabiliscono il CRV come una prova di concetto per l’analisi meccanicistica e mostrano che il passaggio da attivazioni opache a una struttura computazionale interpretabile consente una comprensione causale di come e perché gli LLM non riescono a ragionare correttamente”. Per supportare ulteriori ricerche, il team prevede di rilasciare pubblicamente i set di dati e programmatori addestrati.

Perché è importante?

Sebbene CRV sia una prova di concetto della ricerca, i suoi risultati indicano un futuro importante per lo sviluppo dell’intelligenza artificiale. I modelli di intelligenza artificiale apprendono algoritmi interni o "circuiti," per compiti diversi. Ma poiché questi modelli sono opachi, non possiamo eseguire il debug degli errori riconducendoli a passaggi specifici del calcolo come i programmi informatici standard. I grafici di associazione sono la cosa più vicina a una traccia di esecuzione che mostra come è stato ottenuto un output dai passaggi intermedi.

Questa ricerca suggerisce che i grafici di associazione potrebbero essere la base per una nuova classe di debugger di modelli di intelligenza artificiale. Tali strumenti consentiranno agli sviluppatori di comprendere la causa principale dei guasti, sia che si tratti di dati di addestramento insufficienti o di interferenze tra attività concorrenti. Ciò consentirà mitigazioni precise come la messa a punto mirata o addirittura la modifica diretta del modello, piuttosto che una costosa riqualificazione su vasta scala. Potrebbero anche consentire interventi più efficaci per correggere gli errori del modello durante l’inferenza.

Il successo di CRV nel rilevare e localizzare gli errori di ragionamento è un segnale incoraggiante del fatto che tali debugger potrebbero diventare realtà. Ciò aprirà la strada a LLM più potenti e ad agenti autonomi in grado di affrontare l’imprevedibilità del mondo reale e correggere la rotta quando commettono errori nel ragionamento, proprio come gli umani.

Collegamento alla fonte