I test con rigonfiamento fine con 1,3 campioni puliti rispetto a 5 campioni trasparenti mostrano il tasso di successo di attacchi simili quando il numero di esempi contaminati è fisso. Per GPT -1.5 -Terbo, i campioni contaminati tra 1 e 5 hanno raggiunto più del 5% dell’attacco alle forme del datasate, che si estendono a due dimensioni.
Limitazione
Anche se a prima vista può sembrare preoccupante che i LLM possano essere compromessi in questo modo, la ricerca si applica solo a determinate situazioni testate dai ricercatori e con avvertimenti importanti.
Etnografico Ha scritto Nel suo post sul blog. “Non è inoltre chiaro se abbiamo osservato qui le stesse dinamiche che comportamenti più complessi come il codice backdoor o il mantenimento della protezione riusciranno a bypassare.”
Lo studio ha testato solo fino a 13 miliardi di parametri, mentre i modelli commerciali più capaci ne hanno diverse centinaia di miliardi. La ricerca si è concentrata sui comportamenti backdoor più semplici rispetto agli attacchi sofisticati che creano il rischio maggiore per la sicurezza nell’implementazione del mondo reale.
Inoltre, nella maggior parte dei casi è possibile correggere i backdor delle società di formazione sulla sicurezza. Dopo aver installato una backdoor con 250 esempi negativi, i ricercatori hanno scoperto che addestrare il modello con solo 50-100 esempi “buoni” (che mostrano come può ignorare il trigger) ha indebolito notevolmente la backdoor. Con 2.000 buoni esempi, la backdoor è originariamente scomparsa. Poiché le vere aziende di intelligenza artificiale utilizzano un’ampia formazione sulla sicurezza con milioni di esempi, questa parte normale non può sopravvivere su prodotti reali come ChatzPT o Clod.
I ricercatori hanno anche notato che quando si creano 250 documenti contaminati, è facile per gli aggressori incontrare problemi più difficili nell’agire nell’addestramento dei set di dati. Le principali aziende di intelligenza artificiale correggono i propri dati di formazione e filtrano i contenuti, rendendo difficile garantire che verranno inclusi specifici documenti contaminati. Un utente malintenzionato che può garantire che una pagina Web contaminata sia inclusa nei dati di addestramento può sempre rendere la pagina ancora più grande per includere più esempi, ma il primo accesso a set di dati curati costituisce l’ostacolo principale.
Nonostante queste limitazioni, i ricercatori hanno sostenuto che i metodi di sicurezza dovrebbero essere modificati nella loro ricerca. Il compito dimostra che i difensori hanno bisogno di una tecnica che funzioni anche quando non esiste un numero limitato di esempi contaminati, ma devono solo pensare all’inquinamento basato sulla percentuale.
“I nostri risultati dimostrano che l’avvelenamento dei dati della backdoor iniettata con data-avvelenamento potrebbe essere più semplice per i grandi modelli perché il numero di avvelenamenti non si adatta alle dimensioni del modello”, scrivono i ricercatori, “I modelli futuri evidenziano la necessità di ulteriori ricerche sulla difesa per alleviare questo rischio.”