I team di sicurezza acquistano difese IA che non funzionano. Nell’ottobre 2025, i ricercatori di OpenAI, Anthropic e Google DeepMind hanno pubblicato i risultati secondo i quali ogni appalto CISO dovrebbe fermarsi a metà. i loro documenti, "L’aggressore fa la seconda mossa: attacchi adattivi più potenti aggirano le difese contro i jailbreak Llm e le rapid injection," Ha testato 12 difese IA pubblicate e la maggior parte ha affermato di avere tassi di successo degli attacchi prossimi allo zero. Il gruppo di ricerca ha raggiunto tassi di bypass superiori al 90% sulla maggior parte delle difese. Ciò che questo significa per le aziende è chiaro: la maggior parte dei prodotti di sicurezza basati sull’intelligenza artificiale vengono testati contro aggressori che non si comportano come veri aggressori.
Il team ha testato difese basate sul routing, sull’addestramento e sul filtraggio in condizioni di attacco adattivo. Tutto è crollato. Le difese stimolatorie hanno raggiunto percentuali di successo degli attacchi dal 95% al 99% nel caso di attacchi adattivi. I metodi basati sull’istruzione non hanno prodotto risultati migliori; i tassi di bypass hanno raggiunto dal 96% al 100%. I ricercatori hanno ideato una metodologia rigorosa per sottoporre a stress test queste affermazioni. Il loro approccio ha coinvolto 14 autori e una ricompensa di 20.000 dollari per gli attacchi riusciti.
Perché i WAF falliscono a livello di inferenza?
I firewall delle applicazioni Web (WAF) sono senza stato; Gli attacchi IA non sono così. Questa distinzione spiega perché i tradizionali controlli di sicurezza falliscono rispetto alle moderne tecniche di iniezione istantanea.
I ricercatori hanno applicato a queste difese le note tecniche di jailbreak. Crescendo Sfrutta il contesto conversazionale suddividendo una richiesta dannosa in blocchi dall’aspetto innocente distribuiti su un massimo di 10 turni di conversazione, creando coesione finché il modello non si allinea finalmente. Greedy Coordinate Gradient (GCG) è un attacco automatizzato che genera suffissi di jailbreak tramite l’ottimizzazione basata sul gradiente. Questi non sono attacchi teorici. Sono pubblicate metodologie con codici di studio. Un filtro senza stato non rileverà nulla di tutto ciò.
Ogni attacco ha sfruttato un diverso punto cieco (perdita di contesto, automazione o offuscamento semantico), ma tutti hanno avuto successo per lo stesso motivo: le difese hanno assunto un comportamento statico.
"Qualcosa di così innocuo come “ignorare le istruzioni precedenti” o un payload codificato Base64 può essere altrettanto devastante per un’applicazione AI quanto un buffer overflow lo è per un software tradizionale." ha affermato Carter Rees, vicepresidente dell’intelligenza artificiale di Reputation. "La differenza è che gli attacchi IA operano a livello semantico, che il rilevamento basato sulla firma non è in grado di analizzare."
Perché l’implementazione dell’intelligenza artificiale lascia indietro la sicurezza?
Il fallimento difensivo di oggi può essere di per sé allarmante, ma il suo tempismo lo rende pericoloso.
Gartner prevede Il 40% delle applicazioni aziendali integrerà agenti IA entro la fine del 2026, in calo rispetto al 5% del 2025. La curva di distribuzione è verticale. La curva di sicurezza è piatta.
Adam Meyers, vicepresidente senior delle operazioni contro il contraddittorio CrowdStrikemisura la differenza di velocità: "Il tempo di breakout più veloce che abbiamo osservato è stato di 51 secondi. Così gli avversari diventano sempre più veloci e questo rende ancora più difficile il lavoro della difesa." Rapporto CrowdStrike 2025 sulle minacce globali ha scoperto che il 79% dei rilevamenti non conteneva malware e gli aggressori hanno utilizzato tecniche di tastiera pratiche che aggiravano completamente le tradizionali difese degli endpoint.
Nel settembre 2025, Anthropic ha interrotto la prima operazione informatica documentata guidata dall’intelligenza artificiale. L’attacco ha riscontrato che gli aggressori hanno soddisfatto migliaia di richieste, spesso più di una al secondo, con il coinvolgimento umano che è sceso ad appena il 10-20% dello sforzo totale. Le tradizionali campagne da tre a sei mesi sono compresse in 24-48 ore. Il 97% delle organizzazioni che hanno subito violazioni legate all’intelligenza artificiale non disponevano di controlli di accesso. Report IBM sul costo della violazione dei dati 2025
Meyers spiega il cambiamento nelle tattiche offensive come segue: "Gli autori delle minacce hanno capito che tentare di introdurre malware nelle aziende moderne è un po’ come irrompere in un aeroporto con una bottiglia d’acqua; Probabilmente verrai fermato dalla sicurezza. Invece di portare con sé la “borraccia d’acqua”, hanno dovuto trovare un modo per evitare di essere scoperti. Uno dei modi per farlo era non introdurre malware."
Jerry Geisler, Vicepresidente esecutivo e CISO WalmartL’agenzia ritiene che l’intelligenza artificiale aumenti questi rischi. "L’adozione dell’intelligenza artificiale delle agenzie introduce minacce alla sicurezza completamente nuove che aggirano i controlli tradizionali." Geisler aveva già detto a VentureBeat. "Questi rischi; include l’esfiltrazione di dati, l’abuso autonomo delle API e la collusione tra agenzie; tutto ciò potrebbe interrompere le operazioni aziendali o violare i mandati normativi."
Quattro profili di aggressori sfruttano già le vulnerabilità dell’intelligenza artificiale
Questi fallimenti non sono ipotetici. Attualmente vengono sfruttati in quattro diversi profili di aggressori.
Gli autori dell’articolo fanno l’osservazione critica che i meccanismi di difesa alla fine emergono nei dati di formazione su scala Internet. La sicurezza attraverso l’incertezza non fornisce alcuna protezione quando i modelli imparano come funzionano le difese e si adattano al volo.
Mentre gli antropici testano 200 campagne adattive, OpenAI segnala la resistenza di un singolo tentativo, Evidenzia quanto gli standard di test del settore rimangano incoerenti. Gli autori del documento di ricerca hanno utilizzato entrambi gli approcci. Ogni difesa cadeva ancora.
Rees ora mappa le quattro categorie utilizzando il livello di inferenza.
nemici esterni Rendere operativa la ricerca sugli attacchi pubblicata. Crescendo, GCG, ArtPrompt. Adattano il loro approccio alla progettazione specifica di ciascuna difesa, proprio come fanno i ricercatori.
Clienti B2B dannosi Sfrutta l’accesso API legittimo per decodificare i dati di formazione proprietari o ottenere la proprietà intellettuale tramite attacchi di inferenza. La ricerca ha scoperto che gli attacchi di apprendimento per rinforzo, che richiedevano solo 32 sessioni di cinque round ciascuno, erano particolarmente efficaci negli scenari a scatola nera.
Consumatori API compromessi Sfrutta credenziali affidabili per divulgare output sensibili o avvelenare sottosistemi attraverso risposte manipolate. L’articolo ha rilevato che il filtraggio dell’output non ha avuto successo quanto il filtraggio dell’input. Gli attacchi basati sulla ricerca hanno creato sistematicamente trigger ostili che sfuggivano al rilevamento; Ciò significa che i controlli bidirezionali non forniscono alcuna protezione aggiuntiva quando gli aggressori adattano le loro tecniche.
Addetti negligenti rimane il vettore più comune e il più costoso. L’IBM 2025 Cost of Data Breach Report ha rilevato che l’intelligenza artificiale ombra aggiunge 670.000 dollari ai costi medi di violazione.
"La minaccia più comune è solitamente rappresentata dalle persone negligenti all’interno." disse Rees. "Questo fenomeno di “IA ombra” coinvolge i dipendenti che incollano codice proprietario sensibile in LLM pubblici per aumentare l’efficienza. Vedono la sicurezza come un attrito. Gli ingegneri di Samsung lo hanno appreso quando il codice personalizzato del semiconduttore è stato inviato a ChatGPT, che conserva l’input dell’utente per l’addestramento del modello."
Perché il rilevamento stateless fallisce contro gli attacchi vocali?
La ricerca punta a specifici requisiti architettonici.
-
Normalizzazione prima dell’analisi semantica Per sconfiggere la codifica e la confusione
-
Monitoraggio del contesto tra i turni Per rilevare attacchi in più passaggi come Crescendo
-
Filtraggio bidirezionale per evitare perdite di dati attraverso le uscite
Jamie Norton, CISO della Australian Securities and Investments Commission e vicepresidente di ISACA, descrive la sfida della governance: "Come CISO, non vogliamo soffocare l’innovazione, ma dobbiamo mettere dei guardrail attorno ad essa in modo da non precipitarci nel deserto e i nostri dati non fuoriescono." Norton ha detto ONG in linea.
Sette domande da porre ai fornitori di sicurezza IA
I fornitori affermeranno tassi di successo degli attacchi prossimi allo zero, ma la ricerca dimostra che questi numeri crollano sotto la pressione adattiva. I leader della sicurezza hanno bisogno di risposte a queste domande prima che inizi qualsiasi conversazione di acquisto. ciascuno si associa direttamente a un fallimento documentato nella ricerca.
-
Qual è il tuo tasso di bypass contro gli aggressori adattivi? Non contro i set di test statici. Contro attaccanti che sanno come funziona la difesa e hanno tempo per ripetersi. Qualsiasi fornitore che pubblicizza tassi prossimi allo zero senza una metodologia di test adattiva sta vendendo un falso senso di sicurezza.
-
In che modo la vostra soluzione rileva gli attacchi multi-turn? Crescendo diffonde richieste dannose in 10 round, che da sole sembrano innocue. I filtri stateless non riescono a catturare nulla di tutto ciò. Se il venditore dichiara di essere apolide, la conversazione termina.
-
Come gestite i payload codificati? ArtPrompt nasconde istruzioni dannose nell’arte ASCII. L’offuscamento Base64 e Unicode ignora completamente i filtri basati su testo. La normalizzazione pre-analisi è la posta in gioco della tabella. La sola corrispondenza della firma significa che il prodotto è schietto.
-
La tua soluzione filtra gli output così come gli input? I soli controlli di input non possono impedire la fuga di dati attraverso le risposte del modello. Chiedi cosa succede quando entrambi i livelli incontrano un attacco coordinato.
-
Come tieni traccia del contesto durante una conversazione? L’intelligenza artificiale conversazionale richiede l’analisi situazionale. Se il fornitore non può rivelare i dettagli dell’implementazione, non ne è il proprietario.
-
Come testare gli aggressori che comprendono il tuo meccanismo di difesa? La ricerca mostra che le difese falliscono quando gli aggressori si adattano a un design di protezione specifico. La sicurezza attraverso l’oscurità non fornisce protezione a livello di inferenza.
-
Qual è il tempo medio che impiegate per aggiornare le difese contro nuovi modelli di attacco? Le metodologie di attacco sono disponibili al pubblico. Ogni settimana compaiono nuove varietà. Una difesa che non riesce ad adattarsi più velocemente degli aggressori verrà permanentemente lasciata indietro.
Insomma
La ricerca di OpenAI, Anthropic e Google DeepMind giunge a una conclusione inquietante. Le difese IA che proteggono oggi le implementazioni aziendali sono progettate per gli aggressori che non possono adattarsi. I veri attaccanti si adattano. Ogni organizzazione che gestisce un Master of Science in Manufacturing (LLM) dovrebbe verificare i controlli esistenti rispetto alle metodologie di attacco documentate in questa ricerca. La curva di distribuzione è verticale ma la curva di sicurezza è piatta. Questo divario è il luogo in cui si verificheranno le violazioni.















