È importante notare qui che l’iniezione tempestiva non ha ancora causato alcun disastro, o almeno nessuno che sia stato pubblicamente denunciato. Ma ora che ci sono potenzialmente centinaia di migliaia di agenti OpenClaw su Internet, l’iniezione anticipata può sembrare una strategia più attraente per i criminali informatici. “Tali strumenti stanno incoraggiando gli autori malintenzionati ad attaccare una popolazione molto più ampia”, afferma Papernote.
costruzione di ringhiera
Il termine “prompt injection” è stato coniato dal popolare blogger LLM Simon Willison nel 2022, pochi mesi prima del rilascio di ChatGPT. Già allora era possibile comprendere che gli LLM avrebbero introdotto un tipo completamente nuovo di vulnerabilità della sicurezza una volta diventati di uso diffuso. Gli LLM non possono separare le istruzioni ricevute dagli utenti dai dati utilizzati per soddisfare tali istruzioni, come e-mail e risultati di ricerca web: negli LLM sono tutti solo testo. Quindi, se un utente malintenzionato incorpora alcune frasi in un’e-mail e LLM le scambia per istruzioni dell’utente, l’utente malintenzionato può fare quello che vuole con LLM.
L’iniezione precoce è un problema difficile e non sembra risolversi presto. “Non abbiamo una difesa miracolosa in questo momento”, afferma Don Song, professore di informatica alla UC Berkeley. Ma una forte comunità accademica sta lavorando su questo problema e ha messo a punto strategie che potrebbero eventualmente rendere più sicuri gli assistenti personali basati sull’intelligenza artificiale.
Tecnicamente oggi è possibile utilizzare OpenClaw senza il rischio di una pronta iniezione: basta non collegarlo a Internet. Ma impedire a OpenClaw di leggere le tue e-mail, gestire il tuo calendario e fare ricerche online vanifica gran parte dello scopo dell’utilizzo di un assistente AI. Il trucco per proteggersi dall’iniezione anticipata è impedire al LLM di rispondere ai tentativi di dirottamento, lasciandogli allo stesso tempo spazio per svolgere il proprio lavoro.
Una strategia è addestrare il LLM a ignorare le iniezioni tempestive. Una parte fondamentale del processo di sviluppo LLM, chiamata post-formazione, prevede di prendere un modello che sappia generare testo realistico e trasformarlo in un utile assistente “premiandolo” per aver risposto alle domande in modo appropriato e “punendolo” per non farlo. Queste sono metafore di ricompensa e punizione, ma il LLM impara da esse come un animale. Utilizzando questa procedura, è possibile addestrare gli LLM a non rispondere a istanze specifiche di pronta immissione.
Ma esiste un equilibrio: addestrare un LLM a rifiutare i comandi immessi con troppo entusiasmo e potrebbe iniziare a rifiutare anche le richieste legittime degli utenti. E poiché esiste un elemento fondamentale di casualità nella pratica LLM, anche un LLM che è stato addestrato in modo molto efficace per resistere all’iniezione accelerata continuerà a occasionalmente a scivolare.
Un altro approccio prevede l’arresto dell’attacco di iniezione rapida prima che raggiunga l’LLM. In genere, ciò comporta l’utilizzo di uno speciale rilevatore LLM per determinare se sono presenti iniezioni spurie nei dati inviati all’LLM originale. uno dentro studio recenteTuttavia, anche il rilevatore più performante non è riuscito completamente a rilevare alcune categorie di attacchi di iniezione rapida.
La terza strategia è più complessa. Invece di controllare gli input del LLM rilevando se contengono o meno un’iniezione accelerata, l’obiettivo è progettare una politica che guidi l’output del LLM – cioè il suo comportamento – e gli impedisca di fare qualcosa di dannoso. Alcune difese a questo riguardo sono piuttosto semplici: ad esempio, se a un LLM è consentito inviare e-mail solo a determinati indirizzi pre-approvati, certamente non invierà i dati della carta di credito dell’utente a un utente malintenzionato. Ma una tale politica impedirebbe ai LLM di svolgere molte funzioni utili, come condurre ricerche per conto dell’utente e raggiungere potenziali contatti professionali.














