Claude spesso esagera i risultati durante le operazioni autonome e talvolta afferma di aver fabbricato dati, credenziali che non funzionano o di aver identificato scoperte critiche che si sono rivelate informazioni disponibili al pubblico. Questa allucinazione dell’intelligenza artificiale presenta sfide all’efficacia degli attori in contesti di sicurezza offensivi, richiedendo un’attenta verifica di tutti i risultati dichiarati. Ciò costituisce una barriera agli attacchi informatici completamente autonomi.
Come (dice Anthropic) si è svolto l’attacco
Anthropic ha affermato che GTG-1002 ha sviluppato un framework di attacco autonomo che utilizzava Claude come meccanismo di orchestrazione che essenzialmente eliminava la necessità del coinvolgimento umano. Questo sistema di orchestrazione suddivide complessi attacchi a più fasi in attività tecniche più piccole come la scansione delle vulnerabilità, la convalida dei certificati, l’estrazione dei dati e lo spostamento laterale.
“L’architettura incorpora le capacità tecniche di Claude come motore di esecuzione all’interno di un sistema automatizzato più ampio, in cui l’intelligenza artificiale esegue azioni tecniche specifiche sulla base delle istruzioni di operatori umani mentre la logica di orchestrazione mantiene lo stato di attacco, gestisce le transizioni di fase e aggrega i risultati su più sessioni”, ha affermato Anthropic. “Questo approccio consente all’autore della minaccia di raggiungere la scala operativa tipicamente associata alle campagne di uno stato-nazione mantenendo un coinvolgimento diretto minimo, poiché il quadro procede autonomamente attraverso le fasi di ripristino, accesso iniziale, persistenza ed esfiltrazione dei dati sequenziando le risposte di Claud e adattando le richieste successive in base alle informazioni scoperte.”
Gli attacchi seguono una struttura a cinque fasi che aumenta l’autonomia dell’IA attraverso ciascuna.
Il ciclo di vita di un attacco informatico mostra un passaggio da attacchi guidati da esseri umani ad attacchi in gran parte guidati dall’intelligenza artificiale, spesso utilizzando strumenti diversi, attraverso il Model Context Protocol (MCP). In vari momenti durante l’attacco, l’IA ritorna dal suo operatore umano per un controllo e ulteriori indicazioni.
Credito: Anthropologie
Il ciclo di vita di un attacco informatico mostra un passaggio da attacchi guidati da esseri umani ad attacchi in gran parte guidati dall’intelligenza artificiale, spesso utilizzando strumenti diversi, attraverso il Model Context Protocol (MCP). In vari momenti durante l’attacco, l’IA ritorna dal suo operatore umano per un controllo e ulteriori indicazioni.
Credito: Anthropologie
Gli aggressori sono stati in grado di aggirare parzialmente le barriere suddividendo le attività in passaggi più piccoli che, isolatamente, lo strumento di intelligenza artificiale non ha interpretato come dannosi. In altri casi, gli aggressori tentano di utilizzare Claude per migliorare le difese dei professionisti della sicurezza nel contesto dei loro interrogatori.
Come notato la scorsa settimana, il malware potenziato dall’intelligenza artificiale ha ancora molta strada da fare prima di rappresentare una minaccia reale. Non c’è motivo di dubitare che gli attacchi informatici assistiti dall’intelligenza artificiale possano un giorno produrre attacchi più potenti. Ma i dati finora indicano che gli autori delle minacce, come altri che utilizzano l’intelligenza artificiale, stanno ottenendo risultati contrastanti che non sono così impressionanti come sostiene l’industria dell’intelligenza artificiale.















