Home Attualità I modelli AI possono sorprendentemente ottenere le scanalature posteriori da alcuni documenti...

Attualità

I modelli AI possono sorprendentemente ottenere le scanalature posteriori da alcuni documenti contaminati

9 Ottobre 2025

I test con rigonfiamento fine con 1,3 campioni puliti rispetto a 5 campioni trasparenti mostrano il tasso di successo di attacchi simili quando il numero di esempi contaminati è fisso. Per GPT -1.5 -Terbo, i campioni contaminati tra 1 e 5 hanno raggiunto più del 5% dell’attacco alle forme del datasate, che si estendono a due dimensioni.

Limitazione

Anche se a prima vista può sembrare preoccupante che i LLM possano essere compromessi in questo modo, la ricerca si applica solo a determinate situazioni testate dai ricercatori e con avvertimenti importanti.

Etnografico Ha scritto Nel suo post sul blog. “Non è inoltre chiaro se abbiamo osservato qui le stesse dinamiche che comportamenti più complessi come il codice backdoor o il mantenimento della protezione riusciranno a bypassare.”

Lo studio ha testato solo fino a 13 miliardi di parametri, mentre i modelli commerciali più capaci ne hanno diverse centinaia di miliardi. La ricerca si è concentrata sui comportamenti backdoor più semplici rispetto agli attacchi sofisticati che creano il rischio maggiore per la sicurezza nell’implementazione del mondo reale.

Inoltre, nella maggior parte dei casi è possibile correggere i backdor delle società di formazione sulla sicurezza. Dopo aver installato una backdoor con 250 esempi negativi, i ricercatori hanno scoperto che addestrare il modello con solo 50-100 esempi “buoni” (che mostrano come può ignorare il trigger) ha indebolito notevolmente la backdoor. Con 2.000 buoni esempi, la backdoor è originariamente scomparsa. Poiché le vere aziende di intelligenza artificiale utilizzano un’ampia formazione sulla sicurezza con milioni di esempi, questa parte normale non può sopravvivere su prodotti reali come ChatzPT o Clod.

I ricercatori hanno anche notato che quando si creano 250 documenti contaminati, è facile per gli aggressori incontrare problemi più difficili nell’agire nell’addestramento dei set di dati. Le principali aziende di intelligenza artificiale correggono i propri dati di formazione e filtrano i contenuti, rendendo difficile garantire che verranno inclusi specifici documenti contaminati. Un utente malintenzionato che può garantire che una pagina Web contaminata sia inclusa nei dati di addestramento può sempre rendere la pagina ancora più grande per includere più esempi, ma il primo accesso a set di dati curati costituisce l’ostacolo principale.

Nonostante queste limitazioni, i ricercatori hanno sostenuto che i metodi di sicurezza dovrebbero essere modificati nella loro ricerca. Il compito dimostra che i difensori hanno bisogno di una tecnica che funzioni anche quando non esiste un numero limitato di esempi contaminati, ma devono solo pensare all’inquinamento basato sulla percentuale.

“I nostri risultati dimostrano che l’avvelenamento dei dati della backdoor iniettata con data-avvelenamento potrebbe essere più semplice per i grandi modelli perché il numero di avvelenamenti non si adatta alle dimensioni del modello”, scrivono i ricercatori, “I modelli futuri evidenziano la necessità di ulteriori ricerche sulla difesa per alleviare questo rischio.”

Collegamento alla fonte

I modelli AI possono sorprendentemente ottenere le scanalature posteriori da alcuni documenti contaminati

Limitazione

Ultimo post

“The Daily Show” è paragonabile all’episodio “Bernie” di “Portland Unrest”.

Prezzo dell’oro in India: tassi al 10 ottobre

49 John potrebbe scambiare un’offensiva per 33 milioni di dollari

L’UNC sospende e indaga sull’allenatore del CB per benefici impropri

Suor Jean Dolores Schmidt, amata pastore di Loyola Chicago, muore a...

Recensione iPhone 17: caratteristiche, prezzo e dettagli sulle prestazioni

L’Oreal, Arya Grand Signs e altro inizia a partire da $...

Nonostante la crisi politica in Francia, l’euro supera quota 1,1550

L’NLDS danneggia le brutali puledre della MLB dalla parte sbagliata della...

Sir Jim Ratcliffe è determinato a “tornare al top” nonostante i...

Guarda le foto scattate in copertina dalla star di “Running Man”...

La coppia GBP/USD resta sopra 1,3300 grazie alle prospettive caute della...

Categoria