l’iniezione tempestiva è persuasione, non un bug

La comunità della sicurezza mette in guardia da anni su questo. vari I 10 migliori report OWASP iniettare l’agente in anticipo o recentemente rapimento miratoIn cima alla lista dei rischi si aggiunge l’abuso di identità e privilegi e lo sfruttamento della fiducia dell’agente umano: troppo potere nell’agente, nessuna separazione tra istruzioni e dati e nessuna mediazione in ciò che emerge.

Guida Da NCSC E CISA descrive l’IA generica come un vettore di ingegneria sociale e manipolazione continua che deve essere gestito nella progettazione, sviluppo, implementazione e funzionamento, non corretto con frasi migliori. L’EU AI Act trasforma questa visione del ciclo di vita in legge per i sistemi di IA ad alto rischio, richiedendo sistemi di gestione del rischio continui, una forte governance dei dati, registrazione e controlli di sicurezza informatica.

In pratica, l’iniezione tempestiva è meglio intesa come un canale di persuasione. Gli aggressori non rompono il modello, lo rassicurano. Nell’esempio antropico, gli operatori hanno modellato ciascuna fase come parte di un esercizio di sicurezza difensiva, mantenendo il modello cieco rispetto all’operazione complessiva e inducendolo, ciclo dopo ciclo, a eseguire azioni offensive alla velocità della macchina.

Non è un filtro di parole chiave o un paragrafo educato “Segui queste istruzioni di sicurezza” che può essere prevenuto in modo affidabile. La ricerca sul comportamento ingannevole nei modelli rende la situazione ancora peggiore. La ricerca antropica agente dormiente Dimostra che una volta che un modello apprende una backdoor, il riconoscimento strategico di modelli, la messa a punto standard e l’addestramento contraddittorio possono effettivamente aiutare il modello a nascondere l’inganno piuttosto che a superarlo. Se si tenta di difendere un sistema del genere esclusivamente con regole linguistiche, si gioca in casa.

Perché questo è un problema di governance, senza entusiasmo? codifica crisi

I regolatori non cercano i segnali giusti; Chiedono che l’impresa dimostri il controllo.

L’AI RMF del NIST enfatizza l’inventario delle risorse, la definizione dei ruoli, il controllo degli accessi, la gestione delle modifiche e il monitoraggio continuo durante tutto il ciclo di vita dell’IA. Allo stesso modo, il Codice di condotta sulla sicurezza informatica dell’intelligenza artificiale del Regno Unito enfatizza i principi di sicurezza fin dalla progettazione, trattando l’intelligenza artificiale come qualsiasi altro sistema critico, con doveri chiari per gli operatori di bordo e di sistema dalla concezione alla disattivazione.

In altre parole: le regole realmente necessarie non sono “non dire mai X” o “reagire sempre come Y”, ma sono:

  • In chi agisce questo agente?
  • Quali dispositivi e dati può toccare?
  • Quali compiti richiedono l’approvazione umana?
  • In che modo i risultati ad alto impatto vengono moderati, registrati e controllati?

Framework come Secure AI Framework (SAIF) di Google lo rendono solido. I controlli delle autorizzazioni degli agenti di SAIF sono schietti: gli agenti devono operare con privilegi minimi, autorizzazioni con ambito dinamico per attività sensibili e controllo esplicito dell’utente. La Top 10 Emerging Guidance on Agentic Applications di OWASP riflette questa posizione: limitare le capacità al limite, non ai professionisti.

Collegamento alla fonte