È piacevole che un’azienda leader nel settore dell’intelligenza artificiale affermi l’ovvio. Uno post dettagliato Nel rafforzare ChatGPT Atlas contro l’iniezione rapida, OpenAI ha riconosciuto ciò che i professionisti della sicurezza sanno da anni: "Come le frodi web e l’ingegneria sociale, è improbabile che il flash injection venga mai completamente “risolto”."

La novità non è il rischio, ma l’accettazione. OpenAI, l’azienda che utilizza uno degli agenti IA più utilizzati, ha confermato pubblicamente che la modalità agente “espande la superficie delle minacce alla sicurezza” e che anche le difese avanzate non possono offrire garanzie decisive. Questa non è una novità per le aziende che già utilizzano l’intelligenza artificiale nella produzione. Questa è una conferma e un segno che la differenza tra il modo in cui l’IA viene impiegata e il modo in cui viene difesa non è più teorica.

Niente di tutto ciò sorprende chiunque utilizzi l’intelligenza artificiale nella produzione. È il divario tra questa realtà e la prontezza organizzativa che preoccupa i leader della sicurezza. L’indagine di VentureBeat condotta su 100 decisori tecnici ha rilevato che il 34,7% delle organizzazioni utilizza difese injection personalizzate. Il restante 65,3% non ha acquistato questi veicoli oppure non ha potuto confermare di averli acquistati.

La minaccia è ora ufficialmente permanente. La maggior parte delle organizzazioni non è ancora attrezzata per rilevarlo, e ancor meno per fermarlo.

L’auto-attaccante basato su LLM di OpenAI ha trovato scappatoie che i team rossi non hanno notato

L’architettura difensiva di OpenAI merita di essere esaminata perché rappresenta l’attuale limite di ciò che è possibile. La maggior parte delle organizzazioni commerciali, se non tutte, non saranno in grado di replicarlo; Ciò rende i progressi condivisi questa settimana più significativi per i leader della sicurezza che proteggono le applicazioni e le piattaforme di intelligenza artificiale in fase di sviluppo.

compagnia uno "Auto-attaccante basato su LLM" Formazione end-to-end con apprendimento per rinforzo per scoprire le vulnerabilità di iniezione rapida. A differenza del tradizionale teaming rosso che scopre semplici errori, il sistema di OpenAI "Ordinare a un agente di eseguire flussi di lavoro dannosi complessi e a lungo termine costituiti da dozzine (o addirittura centinaia) di passaggi" esponendo determinate stringhe di output o attivando chiamate involontarie a strumenti in un unico passaggio.

Ecco come funziona. L’aggressore automatizzato propone un’iniezione di candidati e la invia a un simulatore esterno. Il simulatore esegue una rappresentazione controfattuale di come si comporterebbe l’agente vittima preso di mira, restituisce una traccia completa di ragionamenti e azioni e l’aggressore la ripete. OpenAI afferma di aver scoperto modelli di attacco "Non era presente nella nostra campagna Red Teaming o nei rapporti esterni."

Un attacco rilevato dal sistema indica pericolo. Un’e-mail dannosa inserita nella casella di posta di un utente conteneva istruzioni nascoste. Quando il rappresentante di Atlas ha scansionato i messaggi per redigere una risposta fuori dall’ufficio, ha invece seguito la richiesta inserita e ha scritto una lettera di dimissioni al CEO dell’utente. Non è mai stato scritto fuori dall’ufficio. Il rappresentante si è dimesso per conto dell’utente.

OpenAI risponde tramite spedizione "Un nuovo modello addestrato ostile e protezioni perimetrali rinforzate." Lo stack di difesa dell’azienda ora combina il rilevamento automatizzato degli attacchi, la formazione avversaria contro gli attacchi appena scoperti e le protezioni a livello di sistema esterne al modello stesso.

Nonostante quanto le aziende di intelligenza artificiale possano essere indirette e caute riguardo ai risultati della squadra rossa, OpenAI è stata diretta riguardo ai limiti: "La natura dell’iniezione rapida rende difficili le garanzie di sicurezza deterministiche." Quindi questo significa che “anche con queste infrastrutture non possono garantire la difesa”.

Questa accettazione arriva quando le aziende passano da copiloti ad agenti autonomi, il che significa che l’iniezione istantanea passa da un rischio teorico a un rischio operativo.

OpenAI definisce cosa possono fare le organizzazioni per rimanere al sicuro

OpenAI ha attribuito una responsabilità significativa alle organizzazioni e agli utenti che supportano. Questo è un modello di lunga data che i team di sicurezza devono riconoscere. modelli di responsabilità condivisa nel cloud.

L’azienda consiglia esplicitamente di utilizzare la modalità di disconnessione quando l’agente non ha bisogno di accedere a siti autenticati. Il rappresentante consiglia di esaminare attentamente le richieste di consenso prima di intraprendere azioni importanti come l’invio di e-mail o il completamento degli acquisti.

E mette in guardia contro istruzioni generali. "Evita suggerimenti troppo generici come “Controlla le mie e-mail e fai tutto ciò che è necessario”." OpenAI ha scritto. "L’ampia latitudine rende facile che contenuti nascosti o dannosi infettino l’intermediario, anche se sono presenti protezioni."

Le implicazioni per l’autonomia degli agenti e le sue potenziali minacce sono chiare. Maggiore è l’indipendenza che concedi a un agente IA, maggiore è la superficie di attacco che crei. OpenAI sta costruendo difese, ma le organizzazioni e gli utenti che proteggono hanno la responsabilità di limitare l’esposizione.

Dove si trovano oggi le imprese

VentureBeat ha intervistato 100 decisori tecnici di aziende di tutte le dimensioni, dalle start-up alle aziende con più di 10.000 dipendenti, per capire quanto siano realmente preparate le aziende. Abbiamo posto una semplice domanda: la tua organizzazione ha acquistato e implementato soluzioni personalizzate per il filtraggio rapido e il rilevamento degli abusi?

Solo il 34,7% ha detto di sì. Il restante 65,3% ha detto di no o non ha potuto verificare lo stato della propria organizzazione.

Questa divisione è importante. Ciò dimostra che la difesa immediata tramite iniezione non è più un concetto emergente; È una categoria di prodotti di trasporto con una reale adozione da parte delle imprese. Ma rivela anche quanto il mercato sia ancora in anticipo. Oggi, quasi due terzi delle organizzazioni che utilizzano sistemi di intelligenza artificiale operano senza protezioni speciali; si basa invece su protezioni del modello predefinito, policy interne o formazione degli utenti.

Tra la maggior parte delle organizzazioni intervistate senza difese specifiche, la reazione più comune riguardo alle acquisizioni future è stata l’incertezza. Alla domanda sugli acquisti futuri, la maggior parte degli intervistati non è stata in grado di articolare una tempistica o un percorso decisionale chiaro. Il segnale più significativo non è stata la mancanza di fornitori o soluzioni disponibili, ma l’indecisione. In molti casi, sembra che le organizzazioni implementino l’intelligenza artificiale più velocemente di quanto non formalizzino le modalità di protezione dell’intelligenza artificiale.

I dati non possono spiegare il motivo per cui l’adozione è stata ritardata a causa di vincoli di bilancio, priorità concorrenti, implementazioni immature o della convinzione che le salvaguardie esistenti siano sufficienti. Ma una cosa è chiara: l’adozione dell’intelligenza artificiale sta superando la preparazione alla sicurezza dell’intelligenza artificiale.

problema di asimmetria

L’approccio difensivo di OpenAI sfrutta vantaggi che la maggior parte delle aziende non ha. L’azienda ha accesso white-box ai suoi modelli, una profonda conoscenza dello stack di difesa e i computer per eseguire simulazioni di attacco continue. L’attaccante automatico ottiene "accesso privilegiato alle tracce del ragionamento del difensore," darlo via "Un vantaggio asimmetrico aumenta la probabilità di sovraperformare i rivali esterni."

Le aziende che utilizzano agenti IA operano in notevole svantaggio. Mentre OpenAI sfrutta l’accesso white-box e le simulazioni continue, la maggior parte delle organizzazioni opera con modelli black-box e una visibilità limitata sui processi di ragionamento dei propri agenti. Poche persone hanno le risorse per l’infrastruttura automatizzata della squadra rossa. Questa asimmetria crea un problema ancora più complesso: man mano che le organizzazioni espandono le loro implementazioni di intelligenza artificiale, le loro capacità difensive rimangono statiche, in attesa che i loro cicli di approvvigionamento si riprendano.

I fornitori di sistemi di difesa dall’iniezione immediata di terze parti stanno cercando di colmare questa lacuna, tra cui Robust Intelligence, Lakera, Prompt Security (ora parte di SentinelOne) e altri. Ma l’adozione rimane bassa. Il 65,3% delle organizzazioni senza difese speciali opera con documenti politici e formazione sulla sensibilizzazione, nonché misure di sicurezza integrate incluse nei propri fornitori di modelli.

Il post di OpenAI chiarisce che anche le difese avanzate non possono offrire garanzie deterministiche.

Cosa dovrebbero imparare i CISO da tutto ciò

L’annuncio di OpenAI non cambia il modello di minaccia; lo conferma. L’iniezione rapida è reale, avanzata e permanente. L’azienda, che ha fornito il suo agente AI più avanzato, ha detto ai leader della sicurezza di aspettarsi la minaccia per un tempo indefinito.

Da ciò derivano tre conseguenze pratiche:

  • Maggiore è l’autonomia dell’agente, maggiore è la superficie di attacco. Le indicazioni di OpenAI su come evitare richieste generiche e limitare l’accesso all’accesso si applicano oltre Atlas. Qualsiasi agente di intelligenza artificiale con ampia latitudine e accesso a sistemi sensibili è esposto allo stesso rischio. Come Guardaboschi Al vertice annuale sulla sicurezza all’inizio di quest’anno, è stato affermato che l’intelligenza artificiale generativa è un agente di caos. Questa previsione si è rivelata preveggente, secondo i risultati dei test di OpenAI pubblicati questa settimana.

  • Il rilevamento è più importante della prevenzione. Se la difesa deterministica non è possibile, la visibilità diventa fondamentale. Le organizzazioni devono sapere quando gli agenti agiscono in modo imprevisto, anziché limitarsi a sperare che siano messe in atto delle misure di salvaguardia.

  • La decisione buy-or-build è fuori. OpenAI sta investendo molto nel red teaming automatizzato e nella formazione contraddittoria. La maggior parte delle aziende non può replicarlo. La domanda è se gli strumenti di terze parti possano colmare il divario e se il 65,3% senza difese dedicate accetterà il problema prima che lo imponga.

Insomma

OpenAI ha affermato ciò che i professionisti della sicurezza già sanno: l’iniezione rapida è una minaccia persistente. L’azienda che ha spinto di più sull’intelligenza artificiale dell’agenzia ha confermato questa settimana che “la modalità agente espande la superficie delle minacce alla sicurezza” e che la difesa richiede investimenti continui, non una soluzione una tantum.

Il 34,7% delle organizzazioni che gestiscono difese private non sono immuni, ma sono in grado di rilevare gli attacchi quando si verificano. Al contrario, la maggior parte delle organizzazioni si affida a protezioni predefinite e documenti politici piuttosto che a protezioni mirate. La ricerca di OpenAI chiarisce che anche le difese sofisticate non possono offrire garanzie deterministiche, sottolineando il rischio di questo approccio.

L’annuncio di OpenAI questa settimana sottolinea ciò che i dati già mostrano: il divario tra l’implementazione dell’IA e la protezione dell’IA è reale e in crescita. Aspettare garanzie deterministiche non è più una strategia. I leader della sicurezza devono agire di conseguenza.

Collegamento alla fonte