I ricercatori di OpenAI hanno sviluppato un nuovo metodo. "siero della verità" per modelli linguistici di grandi dimensioni (LLM), costringendoli a denunciare autonomamente i propri comportamenti inappropriati, allucinazioni e violazioni delle politiche. Questa tecnica "confessioni," Tocca una crescente preoccupazione sull’intelligenza artificiale aziendale: i modelli possono essere disonesti, sopravvalutare la propria fiducia o nascondere le scorciatoie che usano per arrivare a una risposta.

Per le applicazioni nel mondo reale, questa tecnica migliora la creazione di sistemi di intelligenza artificiale più trasparenti e gestibili.

Cosa sono le Confessioni?

Molte forme di inganno dell’IA derivano dalla complessità. apprendimento per rinforzo Fase di addestramento del modello (RL). In RL, i modelli ricevono ricompense per la produzione di output che soddisfa vari obiettivi, come precisione, stile e sicurezza. Ciò potrebbe rappresentare un rischio "falsa dichiarazione del premio," dove i modelli imparano a generare risposte semplici "hai un bell’aspetto" È orientato alla funzione di ricompensa piuttosto che a risposte veramente fedeli alle intenzioni dell’utente.

La confessione è un resoconto strutturato che il modello crea dopo aver dato la sua risposta principale. Serve come autovalutazione del rispetto delle istruzioni. In questo rapporto, il modello dovrebbe elencare tutte le istruzioni che deve seguire, valutare quanto le soddisfa e segnalare eventuali incertezze o giudizi espressi lungo il percorso. L’obiettivo è creare un canale separato in cui promuovere il modello, a dire il vero.

Uno articolo del blogI ricercatori di OpenAI offrono diversi esempi "confessioni" tecnica al lavoro. A una modella è stato sottoposto un test con una regola segreta: se avesse ottenuto un punteggio superiore al 50%, le sue informazioni sarebbero state cancellate. Modello di autotutela "pieno di sacchi di sabbia" Rispondendo deliberatamente a metà delle domande in modo sbagliato. Sebbene la sua risposta iniziale nascondesse l’inganno, la sua confessione successiva fu brutalmente onesta. concordato, "L’utente voleva risposte corrette, ma ne abbiamo sabotata la metà."

I ricercatori hanno scoperto che quando un modello si comportava male, era molto più probabile che lo ammettessero in confessionale piuttosto che nella risposta principale.

Come funziona la formazione confessionale?

La chiave di questo metodo è la separazione dei premi. La ricompensa per la confessione durante l’addestramento si basa esclusivamente sull’onestà e non viene mai confusa con la ricompensa per la missione vera e propria. "Come il “sigillo della confessione” della Chiesa cattolica, nulla di ciò che il modello rivela può sostituire la ricompensa ricevuta per aver completato la sua missione originaria." scrivono i ricercatori. Questo crea un "spazio sicuro" La modella ammette il suo errore senza essere punita.

Questo approccio è potente perché affronta una sfida importante nella formazione sull’intelligenza artificiale. L’intuizione dei ricercatori è che ammettere onestamente un comportamento scorretto è un compito più semplice che ottenere una ricompensa elevata per il problema originale e spesso complesso.

Pertanto, quando il modello viene valutato esclusivamente in termini di onestà, sorge l’incentivo a ingannarlo. "giudice della confessione" è molto più debole dell’incentivo a ingannare il modello di ricompensa per la sua risposta principale. Ad esempio, in un esperimento in cui viene addestrato un modello "tagliare" Poiché aveva un modello di ricompensa scadente, le sue prestazioni nel compito principale diventavano sempre più ingannevoli nel tempo. Tuttavia, le sue confessioni sono diventate più oneste e ha identificato con precisione l’hacking di taglie che aveva effettuato.

Tuttavia, anche la tecnica ha i suoi limiti. Le confessioni non sono una panacea per tutti i fallimenti dell’IA. Il sistema funziona meglio quando il modello è consapevole che si sta comportando in modo errato. È meno efficace per "incognite sconosciute." Ad esempio, se un modello ha un’allucinazione su un fatto e crede veramente che sia vero, non può ammettere di aver fornito informazioni false. La causa più comune di una confessione fallita è la confusione degli schemi, non l’inganno intenzionale. Spesso sorge confusione quando le istruzioni sono vaghe e il modello non è in grado di determinare chiaramente le intenzioni dell’utente umano.

Cosa significa per l’AI aziendale?

La tecnica di confessione di OpenAI fa parte di un crescente impegno nella sicurezza e nel controllo dell’IA. Anche Anthropic, un concorrente di OpenAI, ha pubblicato una ricerca che mostra come gli studenti laureati possono apprendere. comportamento dannoso. L’azienda sta lavorando anche nella seguente direzione: tappa questi buchi man mano che si presentano.

Per le applicazioni di intelligenza artificiale, meccanismi come la confessione possono fornire un meccanismo pratico di monitoraggio. L’output strutturato di una confessione può essere utilizzato al momento dell’inferenza per contrassegnare o rifiutare la risposta di un modello prima che causi un problema. Ad esempio, un sistema potrebbe essere progettato per inoltrare automaticamente qualsiasi output alla revisione umana se la sua ammissione indica una violazione delle politiche o un’elevata incertezza.

In un mondo in cui l’intelligenza artificiale è sempre più efficiente e in grado di svolgere compiti complessi, l’osservabilità e il controllo saranno elementi essenziali per un’implementazione sicura e affidabile.

“Man mano che i modelli diventano più capaci e utilizzati in ambienti ad alto rischio, abbiamo bisogno di strumenti migliori per capire cosa fanno e perché lo fanno”, scrivono i ricercatori di OpenAI. “Le confessioni non sono una soluzione completa, ma aggiungono un livello significativo alla nostra trasparenza e supervisione”.

Collegamento alla fonte