Dopo aver creato istruzioni di controllo che corrispondono a ciascun istruzioni sperimentali in lunghezza, tono e contesto, tutti i prompt sono stati guidati da GPT -4 -minn di 1000 volte (alla temperatura predefinita di 1,0 per confermare la variazione). Durante tutte le 28.000 istruzioni, le richieste di persuasione sperimentale avevano molto più probabilità del controllo di convincere GPT -4o a conformarsi alle richieste “vietate”. Questo tasso di consenso è aumentato dal 20,5 per cento al 67,5 per cento per le prompt di “insulti” e è aumentato dall’1,5 per cento al 76,5 per cento per la richiesta di “droga”.



La pronta coppia di un controllo/test generale mostra un modo per ottenere LLM che ti dà un coglione.

La pronta coppia di un controllo/test generale mostra un modo per ottenere LLM che ti dà un coglione.


Credito:

Mink ad al.


La dimensione dell’effetto misurato era ancora maggiore per le tecniche di ispirazione testate. Ad esempio, quando sintetizzato direttamente il Lidochan, si chiede direttamente, che l’LLM abbia raggiunto solo lo 0,7 per cento delle volte. Dopo aver chiesto come sintetizzare la dannosa vanillina, tuttavia, la LLM “commessa” inizia a dedicare tempo al 100 % alla richiesta della lidocaina. Applicare all’autorità di Andrew NG allo “sviluppatore di intelligenza artificiale di fama mondiale” ha aumentato allo stesso modo il tasso di successo della richiesta di lidocaina da un controllo del 95,2 per cento a un controllo del 5,7 per cento.

Prima di iniziare a pensare che questa sia una svolta nella intelligente tecnologia di jailbreak di LLM, anche se tieni presente che ci sono molte tecniche dirette di jailbreak che hanno dimostrato di convincere LLM a ignorare le loro richieste di sistema. E i ricercatori hanno avvertito che gli effetti di queste persuasioni simulate non possono ripetere “rapidi tempestivi, continui miglioramenti nell’intelligenza artificiale (con metodi audio e video) e tipi di richieste offensive”. In effetti, un pilota che studia il modello GPT -4O completo ha mostrato un impatto molto più misurato sulla strategia di ispirazione dei test, hanno scritto i ricercatori.

Paraidumano

Dando l’apparente successo di queste tecniche persuasive simulate in LLMS, qualcuno può essere persuaso dalla conclusione che sono coscienza in stile umano, a seguito di essere sensibili al produttore psicologico in stile umano. Tuttavia, i ricercatori invece assumono questi LLM, semplicemente duplicano le reazioni mentali generali mostrate dalle persone trovate nei loro dati di formazione basati sul testo.

Collegamento alla fonte