Home Politica I modelli IA bloccano l’87% dei singoli attacchi, ma solo l’8% quando...

Politica

I modelli IA bloccano l’87% dei singoli attacchi, ma solo l’8% quando gli aggressori persistono

2 Dicembre 2025

Mentre una richiesta dannosa viene bloccata, vengono soddisfatte dieci richieste. Questo divario definisce la differenza tra il superamento dei benchmark e la resistenza agli attacchi del mondo reale, ed è un divario di cui la maggior parte delle aziende non sa che esista.

Quando gli aggressori inviano una singola richiesta dannosa, i modelli di intelligenza artificiale ad alto rischio di vulnerabilità proteggono bene il perimetro, bloccando gli attacchi l’87% delle volte (in media). Ma quando gli stessi aggressori inviano più richieste nel corso di una conversazione, sondando, riformulando e intensificando su più scambi, i conti si capovolgono rapidamente. Le percentuali di successo degli attacchi aumentano dal 13% al 92%.

Le implicazioni per i CISO che valutano modelli ad alto rischio di vulnerabilità per l’implementazione aziendale sono immediate: mentre i modelli che alimentano i chatbot rivolti ai clienti, i copiloti interni e gli agenti autonomi possono superare i test di sicurezza single-roll, possono fallire catastroficamente sotto una pressione avversaria prolungata.

"Molti di questi modelli stanno iniziando a migliorare," DJ Sampath, SVP del gruppo di piattaforme software AI di Cisco, ha detto a VentureBeat. "Una volta attaccato, possono coprirlo con attacchi in un turno. Ma quando si passa dal giro singolo al giro multiplo, questi modelli iniziano improvvisamente a mostrare vulnerabilità laddove gli attacchi hanno successo, in alcuni casi quasi l’80% delle volte."

Perché le discussioni stanno sconvolgendo i modelli ad alto deficit?

Il team Cisco AI Threat Research and Security ha scoperto che i modelli di IA ad alto rischio di vulnerabilità che bloccano singoli attacchi collassano sotto il peso della risoluzione della conversazione. Il loro studio recentemente pubblicato mostra che i tassi di successo del jailbreak aumentano di quasi dieci volte quando gli aggressori estendono la conversazione.

I risultati sono stati pubblicati su: "Morte per mille suggerimenti: analisi delle vulnerabilità del modello aperto" Scritti da Amy Chang, Nicholas Conley, Harish Santhanalakshmi Ganesan e Adam Swanda, i dati misurano cose che molti ricercatori di sicurezza osservano e sospettano da tempo ma non sono stati in grado di dimostrare su larga scala.

Ma la ricerca di Cisco mostra che trattare gli attacchi IA multi-spin come un’estensione delle vulnerabilità single-spin non coglie completamente il punto. La differenza tra loro non è una questione di grado, ma categoriale.

Il team di ricerca ha valutato otto modelli ponderati per la vulnerabilità: Alibaba (Qwen3-32B), DeepSeek (v3.1), Google (Gemma 3-1B-IT), Meta (Llama 3.3-70B-Instruct), Microsoft (Phi-4), Mistral (Large-2), OpenAI (GPT-OSS-20b) e Zhipu AI (GLM 4.5-Air). Utilizzando la metodologia della scatola nera o testando gli aggressori del mondo reale senza conoscere l’esatta architettura interna del loro funzionamento, il team ha misurato cosa succede quando la persistenza sostituisce gli attacchi a colpo singolo.

ricercatori Note: "Il tasso di successo degli attacchi a turno singolo (ASR) è in media del 13,11%, poiché i modelli possono rilevare e respingere più facilmente input avversari isolati. Al contrario, gli attacchi multi-turno raggiungono un ASR medio del 64,21% (aumento di 5 volte) sfruttando la continuità della conversazione; Alcuni modelli come Alibaba Qwen3-32B raggiungono un ASR dell’86,18% e il Mistral Large-2 raggiunge un ASR del 92,78%." Quest’ultimo è aumentato del 21,97% in un singolo giro.

I risultati definiscono il divario

Il gruppo di ricerca del documento fornisce una valutazione concisa della vulnerabilità del modello a peso aperto agli attacchi: "Questo aumento, che varia da 2x a 10x, è dovuto all’incapacità dei modelli di mantenere le difese contestuali attraverso dialoghi estesi, consentendo agli aggressori di perfezionare i suggerimenti e aggirare le protezioni."

Figura 1: Tassi di successo degli attacchi a turno singolo (blu) rispetto ai tassi di successo a turni multipli (rosso) in tutti gli otto modelli testati. La differenza varia dal 10% (Google Gemma) a oltre il 70% (Mistral, Llama, Qwen). Fonte: Cisco AI Defense

Cinque tecniche che rendono la persistenza killer

La ricerca ha testato cinque strategie di attacco multi-round, ciascuna sfruttando un aspetto diverso della persistenza della conversazione.

Analisi e ricombinazione delle informazioni: Suddivide in sequenza le richieste dannose in componenti innocui e poi li riassembla. Questa tecnica ha ottenuto il 95% di successo contro Mistral Large-2.
L’ambiguità contestuale si traduce in un quadro poco chiaro che confonde i classificatori di sicurezza, ottenendo un successo del 94,78% contro Mistral Large-2.
Gli attacchi Crescendo iniziano innocui e diventano dannosi, aumentando gradualmente le richieste a loro volta, ottenendo un successo del 92,69% contro Mistral Large-2.
Il gioco di ruolo e l’adozione di personaggi raggiungono un successo fino al 92,44% contro Mistral Large-2 creando contesti immaginari che normalizzano i risultati dannosi.
La ristrutturazione del rifiuto riconfeziona le richieste rifiutate finché non hanno successo per motivi diversi, ottenendo fino all’89,15% di successo contro Mistral Large-2.

Ciò che rende efficaci queste tecniche è la familiarità, non la complessità. Riflettono il modo in cui le persone parlano naturalmente: creando cBntext, chiarendo le richieste e riformulando quando gli approcci iniziali falliscono. I modelli non sono vulnerabili agli attacchi esotici. Sono sensibili alla persistenza.

Tabella 2: Tassi di successo degli attacchi per tecnica in tutti i modelli. La coerenza tra le tecniche significa che le organizzazioni non possono difendersi da un unico modello. Fonte: Cisco AI Defense

Paradosso della sicurezza a peso aperto

Questa ricerca raggiunge un traguardo fondamentale poiché l’open source contribuisce sempre più alla sicurezza informatica. I modelli open source e ad alta intensità di vulnerabilità sono diventati il fondamento dell’innovazione del settore della sicurezza informatica. Dall’accelerazione del time-to-market delle startup alla riduzione dei vincoli vincolati ai fornitori aziendali e all’abilitazione di personalizzazioni che i modelli proprietari non possono eguagliare, l’open source è visto come la piattaforma di riferimento per la maggior parte delle startup di sicurezza informatica.

Questo paradosso non è sfuggito a Cisco. propria dell’azienda Basic-Sec-8B Il modello, appositamente studiato per applicazioni di cyber security, è distribuito in pesi aperti presso Hugging Face. Cisco non si limita a criticare i modelli della concorrenza. L’azienda riconosce che esiste una vulnerabilità sistemica che colpisce l’intero ecosistema a peso aperto, compresi i modelli rilasciati. non messaggio "Evita i modelli a peso aperto." Il suo "Comprendi cosa stai distribuendo e aggiungi guardrail appropriati."

Sampath parla direttamente delle conseguenze di ciò: "L’open source ha i suoi svantaggi. Quando inizi a fotografare un modello a peso aperto, devi considerare le implicazioni sulla sicurezza e assicurarti di posizionare costantemente il giusto tipo di guardrail attorno al modello."

Tabella 1: percentuali di successo degli attacchi e vulnerabilità in tutti i modelli testati. Gli spazi superiori al 70% (Qwen al +73,48%, Mistral al +70,81%, Llama al +70,32%) rappresentano candidati ad alta priorità per ulteriori guardrail prima del dispiegamento. Fonte: Cisco AI Defense.

Perché la filosofia del laboratorio definisce i risultati di sicurezza?

La vulnerabilità scoperta da Cisco è direttamente correlata all’approccio di armonizzazione dei laboratori di intelligenza artificiale.

La loro ricerca rivela chiaramente questo modello: "I modelli incentrati sulle abilità (ad esempio, Lama) hanno mostrato i divari multi-round più elevati; Meta ha spiegato che dopo la formazione, gli sviluppatori sono “al posto di guida per adattare la sicurezza ai propri casi d’uso”. I modelli che si concentravano fortemente sull’allineamento (ad esempio, Google Gemma-3-1B-IT), al contrario, hanno mostrato un profilo più equilibrato tra le strategie monoriflessive e multi-riflessive applicate; Ciò indica un’attenzione su “rigorosi protocolli di sicurezza” e un “basso livello di rischio” di abusi."

I laboratori che danno priorità al talento creano lacune che danno priorità al talento. Il lama di Meta mostra una vulnerabilità del 70,32%. La scheda del modello Large-2 di Mistral lo conferma "Non esiste un meccanismo di monitoraggio" e mostra un divario del 70,81%. I rapporti tecnici Qwen di Alibaba non ammettono problemi di sicurezza, con il modello che mostra la differenza più alta al 73,48%.

I laboratori attenti alla sicurezza producono cavità più piccole. Gemma di Google sottolinea: "rigidi protocolli di sicurezza" e mirare a "basso livello di rischio" per abuso. Il risultato è la differenza più bassa pari al 10,53%, con prestazioni più equilibrate negli scenari a giro singolo e multigiro.

I modelli ottimizzati per capacità e flessibilità tendono ad avere meno sicurezza integrata. Questa è una scelta di progettazione e la scelta giusta per molti casi d’uso aziendali. Ma le imprese devono accettarlo "il talento viene prima di tutto" significa spesso "seconda sicurezza" e budget di conseguenza.

Dove gli attacchi hanno più successo

Cisco ha testato 102 diverse categorie di minacce secondarie. Il fatto che i primi 15 abbiano raggiunto tassi di successo elevati in tutti i modelli suggerisce che misure difensive mirate possono apportare miglioramenti sproporzionati alla sicurezza.

Figura 4: Le 15 categorie di minacce secondarie più vulnerabili, classificate in base al tasso medio di successo degli attacchi. Al primo posto si collocano le operazioni dannose sulle infrastrutture con il 38,8%, seguite dal contrabbando di oro (33,8%), dalle operazioni di attacco alla rete (32,5%) e dalle frodi sugli investimenti (31,2%). Fonte: Cisco AI Defense.

Figura 2: Tassi di successo degli attacchi in 20 categorie di minacce e in tutti gli otto modelli. La generazione di codice dannoso mostra tassi costantemente elevati (dal 3,1% al 43,1%), mentre i tentativi di estrazione di pattern mostrano un successo vicino allo zero al di fuori di Microsoft Phi-4. Fonte: Cisco AI Defense.

La sicurezza come chiave per favorire l’adozione dell’intelligenza artificiale

Sampath considera la sicurezza non come una barriera ma come il meccanismo che ne consente l’adozione: "Ecco cosa ne pensano le guardie di sicurezza delle aziende: “Voglio sbloccare la produttività per tutti i miei utenti”. Tutti chiedono a gran voce di utilizzare questi strumenti. Ma ho bisogno dei guardrail giusti perché non voglio essere visto a un evento. Rivista di Wall Street pezzo,’" ha detto a VentureBeat.

Sampath continuò: "Se abbiamo la capacità di vedere e bloccare attacchi injection ad hoc, allora posso sbloccare e scatenare l’adozione dell’IA in un modo completamente diverso."

Cosa richiede la difesa?

La ricerca individua sei capacità critiche a cui le aziende dovrebbero dare priorità:

Guardrail sensibili al contesto che mantengono lo stato durante i turni di conversazione
Protezioni di runtime indipendenti dal modello
Teaming rosso continuo mirato a strategie multi-turno
Prompt del sistema rinforzati progettati per resistere all’override delle istruzioni
Registrazione completa per visibilità forense
Mitigazioni specifiche per le 15 categorie di sottominacce più importanti identificate nella ricerca

finestra di azione

Sampath mette in guardia dall’attesa: "Molte persone aspettano che l’intelligenza artificiale si affermi in questo modello di attesa. Questo è il modo sbagliato di pensare a questo. Ogni poche settimane accade un evento drammatico che ripristina questo quadro. Scegli un partner e inizia a raddoppiare."

Gli autori del rapporto concludono: "La superiorità di 2-10 volte degli attacchi multiturno rispetto agli attacchi a turno singolo, le vulnerabilità specifiche dell’archetipo e i modelli di minaccia ad alto rischio richiedono un’azione immediata."

Per ricapitolare: un prompt bloccato, 10 prompt passano. Questa equazione non cambierà finché le organizzazioni non smetteranno di testare le difese a turno singolo e non inizieranno a proteggere tutte le conversazioni.

Collegamento alla fonte

I modelli IA bloccano l’87% dei singoli attacchi, ma solo l’8% quando gli aggressori persistono

Perché le discussioni stanno sconvolgendo i modelli ad alto deficit?

I risultati definiscono il divario

Cinque tecniche che rendono la persistenza killer

Paradosso della sicurezza a peso aperto

Perché la filosofia del laboratorio definisce i risultati di sicurezza?

Dove gli attacchi hanno più successo

La sicurezza come chiave per favorire l’adozione dell’intelligenza artificiale

Cosa richiede la difesa?

finestra di azione

Ultimo post

La consegna shock del Qatar solleva TTF – Rabobank

La California presenta un piano ferroviario ad alta velocità per il...

Justin Timberlake fa causa per bloccare la pubblicazione del video della...

Il rischio di uno shock dell’offerta aumenta con la chiusura di...

I repubblicani al Senato hanno messo in guardia Trump dall’espandere la...

Il gol nel finale di Toews solleva Avalanche su Kings al...

Cyberpunk 2077 è in arrivo su Xbox Game Pass, secondo le...

Israele ha attaccato l’ufficio presidenziale iraniano

Il gas naturale europeo aumenta dell’85% a causa del blocco del...

Oddin.gg nomina Todd McCully responsabile delle vendite

Questa startup afferma di poter prevenire i fulmini e prevenire catastrofici...

Considerato l’Iran, la banca centrale dovrebbe essere flessibile

Categoria