3. Autorizzazioni in base alla progettazione: legare gli strumenti alle attività, non ai modelli
Un anti-modello comune è quello di dare al modello una credibilità duratura e, si spera, mantenerlo umile. SAIF e NIST sostengono il contrario: credenziali e ambiti dovrebbero essere legati a strumenti e compiti, ruotati regolarmente e verificabili. Gli agenti richiedono quindi funzionalità ad ambito ristretto attraverso tali dispositivi.
In pratica, funziona così: “L’agente finanziario può leggere, ma non scrivere, alcuni registri senza l’approvazione del CFO”.
La domanda dell’amministratore delegato: Possiamo revocare un’abilità specifica a un agente senza riprogettare l’intero sistema?
Controllare dati e comportamenti
Queste fasi vincolano l’input, l’output e il comportamento del gate.
4. Input, Memoria e RAG: Trattare il materiale esterno come ostile fino a prova contraria
La maggior parte degli incidenti degli agenti iniziano con dati segreti: una pagina Web, un PDF, un’e-mail o un archivio avvelenato che introduce di nascosto istruzioni dell’avversario nel sistema. Il cheat sheet di pronta iniezione di OWASP e la guida stessa di OpenAI insistono entrambi sulla separazione rigorosa delle istruzioni di sistema dal contenuto dell’utente e sul trattamento delle fonti di ripristino non controllate come non attendibili.
Operativamente, prima che qualsiasi cosa entri nel recupero o nella memoria a lungo termine, gate: le nuove fonti vengono riviste, etichettate e integrate; La memoria persistente è disabilitata quando esistono riferimenti non attendibili; Ad ogni pezzo è associata una provenienza.
La domanda dell’amministratore delegato: Possiamo contare tutte le fonti di contenuto esterne da cui i nostri agenti apprendono e chi le ha approvate?
5. Gestione dell’output e rendering: nulla viene eseguito “solo perché il modello lo dice”
Nel caso Anthropic, il codice exploit generato dall’intelligenza artificiale e i dump delle credenziali sono confluiti direttamente nell’azione. Qualsiasi output che potrebbe causare effetti collaterali richiede un validatore tra l’agente e il mondo reale. La categoria Gestione non sicura dell’output di OWASP è ovvia a questo punto, così come lo sono le migliori pratiche di sicurezza del browser relative alle limitazioni di base.















