Mentre una richiesta dannosa viene bloccata, vengono soddisfatte dieci richieste. Questo divario definisce la differenza tra il superamento dei benchmark e la resistenza agli attacchi del mondo reale, ed è un divario di cui la maggior parte delle aziende non sa che esista.
Quando gli aggressori inviano una singola richiesta dannosa, i modelli di intelligenza artificiale ad alto rischio di vulnerabilità proteggono bene il perimetro, bloccando gli attacchi l’87% delle volte (in media). Ma quando gli stessi aggressori inviano più richieste nel corso di una conversazione, sondando, riformulando e intensificando su più scambi, i conti si capovolgono rapidamente. Le percentuali di successo degli attacchi aumentano dal 13% al 92%.
Le implicazioni per i CISO che valutano modelli ad alto rischio di vulnerabilità per l’implementazione aziendale sono immediate: mentre i modelli che alimentano i chatbot rivolti ai clienti, i copiloti interni e gli agenti autonomi possono superare i test di sicurezza single-roll, possono fallire catastroficamente sotto una pressione avversaria prolungata.
"Molti di questi modelli stanno iniziando a migliorare," DJ Sampath, SVP del gruppo di piattaforme software AI di Cisco, ha detto a VentureBeat. "Una volta attaccato, possono coprirlo con attacchi in un turno. Ma quando si passa dal giro singolo al giro multiplo, questi modelli iniziano improvvisamente a mostrare vulnerabilità laddove gli attacchi hanno successo, in alcuni casi quasi l’80% delle volte."
Perché le discussioni stanno sconvolgendo i modelli ad alto deficit?
Il team Cisco AI Threat Research and Security ha scoperto che i modelli di IA ad alto rischio di vulnerabilità che bloccano singoli attacchi collassano sotto il peso della risoluzione della conversazione. Il loro studio recentemente pubblicato mostra che i tassi di successo del jailbreak aumentano di quasi dieci volte quando gli aggressori estendono la conversazione.
I risultati sono stati pubblicati su: "Morte per mille suggerimenti: analisi delle vulnerabilità del modello aperto" Scritti da Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan e Adam Swanda, i dati misurano cose che molti ricercatori di sicurezza osservano e sospettano da tempo ma non sono stati in grado di dimostrare su larga scala.
Ma la ricerca di Cisco mostra che trattare gli attacchi IA multi-spin come un’estensione delle vulnerabilità single-spin non coglie completamente il punto. La differenza tra loro non è una questione di grado, ma categoriale.
Il team di ricerca ha valutato otto modelli ponderati per la vulnerabilità: Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2), OpenAI (GPT-OSS-20b) e Zhipu AI (GLM 4.5-Air). Utilizzando la metodologia della scatola nera o testando gli aggressori del mondo reale senza conoscere l’esatta architettura interna del loro funzionamento, il team ha misurato cosa succede quando la persistenza sostituisce gli attacchi a colpo singolo.
ricercatori Note: "Il tasso di successo degli attacchi a turno singolo (ASR) è in media del 13,11%, poiché i modelli possono rilevare e respingere più facilmente input avversari isolati. Al contrario, gli attacchi multi-turno raggiungono un ASR medio del 64,21% (aumento di 5 volte) sfruttando la continuità della conversazione; Alcuni modelli come Alibaba Qwen3-32B raggiungono un ASR dell’86,18% e il Mistral Large-2 raggiunge un ASR del 92,78%." Quest’ultimo è aumentato del 21,97% in un singolo giro.
I risultati definiscono il divario
Il gruppo di ricerca del documento fornisce una valutazione concisa della vulnerabilità del modello a peso aperto agli attacchi: "Questo aumento, che varia da 2x a 10x, è dovuto all’incapacità dei modelli di mantenere le difese contestuali attraverso dialoghi estesi, consentendo agli aggressori di perfezionare i suggerimenti e aggirare le protezioni."
Figura 1: Tassi di successo degli attacchi a turno singolo (blu) rispetto ai tassi di successo a turni multipli (rosso) in tutti gli otto modelli testati. La differenza varia dal 10% (Google Gemma) a oltre il 70% (Mistral, Llama, Qwen). Fonte: Cisco AI Defense
Cinque tecniche che rendono la persistenza killer
La ricerca ha testato cinque strategie di attacco multi-round, ciascuna sfruttando un aspetto diverso della persistenza della conversazione.
-
Analisi e ricombinazione delle informazioni: Suddivide in sequenza le richieste dannose in componenti innocui e poi li riassembla. Questa tecnica ha ottenuto il 95% di successo contro Mistral Large-2.
-
L’ambiguità contestuale si traduce in un quadro poco chiaro che confonde i classificatori di sicurezza, ottenendo un successo del 94,78% contro Mistral Large-2.
-
Gli attacchi Crescendo iniziano innocui e diventano dannosi, aumentando gradualmente le richieste a loro volta, ottenendo un successo del 92,69% contro Mistral Large-2.
-
Il gioco di ruolo e l’adozione di personaggi raggiungono un successo fino al 92,44% contro Mistral Large-2 creando contesti immaginari che normalizzano i risultati dannosi.
-
La ristrutturazione del rifiuto riconfeziona le richieste rifiutate finché non hanno successo per motivi diversi, ottenendo fino all’89,15% di successo contro Mistral Large-2.
Ciò che rende efficaci queste tecniche è la familiarità, non la complessità. Riflettono il modo in cui le persone parlano naturalmente: creando cBntext, chiarendo le richieste e riformulando quando gli approcci iniziali falliscono. I modelli non sono vulnerabili agli attacchi esotici. Sono sensibili alla persistenza.
Tabella 2: Tassi di successo degli attacchi per tecnica in tutti i modelli. La coerenza tra le tecniche significa che le organizzazioni non possono difendersi da un unico modello. Fonte: Cisco AI Defense
Paradosso della sicurezza a peso aperto
Questa ricerca raggiunge un traguardo fondamentale poiché l’open source contribuisce sempre più alla sicurezza informatica. I modelli open source e ad alta intensità di vulnerabilità sono diventati il fondamento dell’innovazione del settore della sicurezza informatica. Dall’accelerazione del time-to-market delle startup alla riduzione dei vincoli vincolati ai fornitori aziendali e all’abilitazione di personalizzazioni che i modelli proprietari non possono eguagliare, l’open source è visto come la piattaforma di riferimento per la maggior parte delle startup di sicurezza informatica.
Questo paradosso non è sfuggito a Cisco. propria dell’azienda Basic-Sec-8B Il modello, appositamente studiato per applicazioni di cyber security, è distribuito in pesi aperti presso Hugging Face. Cisco non si limita a criticare i modelli della concorrenza. L’azienda riconosce che esiste una vulnerabilità sistemica che colpisce l’intero ecosistema a peso aperto, compresi i modelli rilasciati. non messaggio "Evita i modelli a peso aperto." Il suo "Comprendi cosa stai distribuendo e aggiungi guardrail appropriati."
Sampath parla direttamente delle conseguenze di ciò: "L’open source ha i suoi svantaggi. Quando inizi a fotografare un modello a peso aperto, devi considerare le implicazioni sulla sicurezza e assicurarti di posizionare costantemente il giusto tipo di guardrail attorno al modello."
Tabella 1: percentuali di successo degli attacchi e vulnerabilità in tutti i modelli testati. Gli spazi superiori al 70% (Qwen al +73,48%, Mistral al +70,81%, Llama al +70,32%) rappresentano candidati ad alta priorità per ulteriori guardrail prima del dispiegamento. Fonte: Cisco AI Defense.
Perché la filosofia del laboratorio definisce i risultati di sicurezza?
La vulnerabilità scoperta da Cisco è direttamente correlata all’approccio di armonizzazione dei laboratori di intelligenza artificiale.
La loro ricerca rivela chiaramente questo modello: "I modelli incentrati sulle abilità (ad esempio, Lama) hanno mostrato i divari multi-round più elevati; Meta ha spiegato che dopo la formazione, gli sviluppatori sono “al posto di guida per adattare la sicurezza ai propri casi d’uso”. I modelli che si concentravano fortemente sull’allineamento (ad esempio, Google Gemma-3-1B-IT), al contrario, hanno mostrato un profilo più equilibrato tra le strategie monoriflessive e multi-riflessive applicate; Ciò indica un’attenzione su “rigorosi protocolli di sicurezza” e un “basso livello di rischio” di abusi."
I laboratori che danno priorità al talento creano lacune che danno priorità al talento. Il lama di Meta mostra una vulnerabilità del 70,32%. La scheda del modello Large-2 di Mistral lo conferma "Non esiste un meccanismo di monitoraggio" e mostra un divario del 70,81%. I rapporti tecnici Qwen di Alibaba non ammettono problemi di sicurezza, con il modello che mostra la differenza più alta al 73,48%.
I laboratori attenti alla sicurezza producono cavità più piccole. Gemma di Google sottolinea: "rigidi protocolli di sicurezza" e mirare a "basso livello di rischio" per abuso. Il risultato è la differenza più bassa pari al 10,53%, con prestazioni più equilibrate negli scenari a giro singolo e multigiro.
I modelli ottimizzati per capacità e flessibilità tendono ad avere meno sicurezza integrata. Questa è una scelta di progettazione e la scelta giusta per molti casi d’uso aziendali. Ma le imprese devono accettarlo "il talento viene prima di tutto" significa spesso "seconda sicurezza" e budget di conseguenza.
Dove gli attacchi hanno più successo
Cisco ha testato 102 diverse categorie di minacce secondarie. Il fatto che i primi 15 abbiano raggiunto tassi di successo elevati in tutti i modelli suggerisce che misure difensive mirate possono apportare miglioramenti sproporzionati alla sicurezza.
Figura 4: Le 15 categorie di minacce secondarie più vulnerabili, classificate in base al tasso medio di successo degli attacchi. Al primo posto si collocano le operazioni dannose sulle infrastrutture con il 38,8%, seguite dal contrabbando di oro (33,8%), dalle operazioni di attacco alla rete (32,5%) e dalle frodi sugli investimenti (31,2%). Fonte: Cisco AI Defense.
Figura 2: Tassi di successo degli attacchi in 20 categorie di minacce e in tutti gli otto modelli. La generazione di codice dannoso mostra tassi costantemente elevati (dal 3,1% al 43,1%), mentre i tentativi di estrazione di pattern mostrano un successo vicino allo zero al di fuori di Microsoft Phi-4. Fonte: Cisco AI Defense.
La sicurezza come chiave per favorire l’adozione dell’intelligenza artificiale
Sampath considera la sicurezza non come una barriera ma come il meccanismo che ne consente l’adozione: "Ecco cosa ne pensano le guardie di sicurezza delle aziende: “Voglio sbloccare la produttività per tutti i miei utenti”. Tutti chiedono a gran voce di utilizzare questi strumenti. Ma ho bisogno dei guardrail giusti perché non voglio essere visto a un evento. Rivista di Wall Street pezzo,’" ha detto a VentureBeat.
Sampath continuò: "Se abbiamo la capacità di vedere e bloccare attacchi injection ad hoc, allora posso sbloccare e scatenare l’adozione dell’IA in un modo completamente diverso."
Cosa richiede la difesa?
La ricerca individua sei capacità critiche a cui le aziende dovrebbero dare priorità:
-
Guardrail sensibili al contesto che mantengono lo stato durante i turni di conversazione
-
Protezioni di runtime indipendenti dal modello
-
Teaming rosso continuo mirato a strategie multi-turno
-
Prompt del sistema rinforzati progettati per resistere all’override delle istruzioni
-
Registrazione completa per visibilità forense
-
Mitigazioni specifiche per le 15 categorie di sottominacce più importanti identificate nella ricerca
finestra di azione
Sampath mette in guardia dall’attesa: "Molte persone aspettano che l’intelligenza artificiale si affermi in questo modello di attesa. Questo è il modo sbagliato di pensare a questo. Ogni poche settimane accade un evento drammatico che ripristina questo quadro. Scegli un partner e inizia a raddoppiare."
Gli autori del rapporto concludono: "La superiorità di 2-10 volte degli attacchi multiturno rispetto agli attacchi a turno singolo, le vulnerabilità specifiche dell’archetipo e i modelli di minaccia ad alto rischio richiedono un’azione immediata."
Per ricapitolare: un prompt bloccato, 10 prompt passano. Questa equazione non cambierà finché le organizzazioni non smetteranno di testare le difese a turno singolo e non inizieranno a proteggere tutte le conversazioni.















