OpenAI lancia Codex Security il 6 marzoEntra nel mercato della sicurezza delle applicazioni, che Anthropic ha sconvolto 14 giorni fa, con Claude Code Security. Entrambi i browser utilizzano il ragionamento LLM anziché la corrispondenza dei modelli. Entrambi hanno dimostrato che i tradizionali strumenti SAST (Static Application Security Testing) sono intrinsecamente ciechi rispetto a intere classi di vulnerabilità. Lo stack di sicurezza aziendale rimane nel mezzo.

Anthropic e OpenAI hanno rilasciato in modo indipendente scanner di vulnerabilità basati sul ragionamento ed entrambi hanno rilevato classi di bug che il SAST di corrispondenza dei modelli non è mai stato progettato per rilevare. La pressione competitiva tra due laboratori con una valutazione combinata del mercato privato superiore a 1,1 trilioni di dollari significa che la qualità del rilevamento migliorerà più velocemente di quanto qualsiasi fornitore potrebbe offrire da solo.

Né Claude Code Security né Codex Security sostituiscono lo stack esistente. Entrambi gli strumenti modificano permanentemente la matematica degli acquisti. Attualmente entrambi sono gratuiti per i clienti aziendali. Un confronto testa a testa e le sette azioni seguenti sono ciò di cui hai bisogno prima che la scheda ti chieda quale browser stai utilizzando e perché.

In che modo Anthropic e OpenAI hanno ottenuto lo stesso risultato da architetture diverse?

pubblicato da Antropik Ricerca zero day il 5 febbraio Con il rilascio di Claude Opus 4.6. Anthropic ha affermato che Claude Opus 4.6 ha rilevato più di 500 vulnerabilità di elevata gravità precedentemente sconosciute nelle basi di codice open source di produzione che sono sopravvissute a decenni di revisione di esperti e milioni di ore di fuzzing.

Claude ha scoperto un overflow del buffer di heap nella libreria CGIF ragionando sull’algoritmo di compressione LZW; Questo era un difetto che il fuzzing diretto alla copertura non riusciva a rilevare anche con una copertura del codice al 100%. Anthropic ha reso disponibile Claude Code Security ai clienti Enterprise e Team come anteprima di ricerca limitata il 20 febbraio, con accesso rapido e gratuito per i manutentori open source. Anthropic ha sviluppato Claude Code Security per rendere le sue capacità di difesa più ampiamente disponibili, ha dichiarato a VentureBeat in un’intervista esclusiva Gabby Curtis, responsabile delle comunicazioni di Anthropic.

I numeri di OpenAI provengono da un’architettura diversa e da una superficie di scansione più ampia. Codex Security è sviluppato da Aardvark, uno strumento interno basato su GPT-5 e che entrerà in beta privata nel 2025. Durante il periodo beta di Codex Security, l’agente di OpenAI ha scansionato più di 1,2 milioni di transazioni in repository esterni, scoprendo ciò che secondo OpenAI erano 792 risultati critici e 10.561 risultati ad alta gravità. OpenAI ha segnalato vulnerabilità in OpenSSH, GnuTLS, GOGS, Thorium, libssh, PHP e Chromium. 14 CVE assegnati. Secondo OpenAI, i tassi di falsi positivi di Codex Security sono diminuiti di oltre il 50% in tutti i repository durante la beta. La gravità sovrastimata è diminuita di oltre il 90%.

I ricercatori di Checkmarx Zero lo hanno dimostrato Le vulnerabilità moderatamente complesse a volte sfuggono al rilevamento da parte di Claude Code Security. Gli sviluppatori possono indurre l’agente a ignorare il codice vulnerabile. In una scansione completa della base di codice a livello di produzione, Checkmarx Zero ha scoperto che Claude ha rilevato otto vulnerabilità, ma solo due erano vere positive. Se un occultamento moderatamente complesso riesce a sconfiggere lo scanner, il limite di rilevamento è inferiore a quanto suggerito dai numeri dell’intestazione. Né Anthropic né OpenAI hanno sottoposto le dichiarazioni di rilevamento a un audit indipendente di terze parti. I leader della sicurezza dovrebbero considerare i numeri riportati come indicativi piuttosto che come verificati.

Merritt Baer, ​​direttore della società civile Crittografia AI e l’ex vice CISO di AWS ha dichiarato a VentureBeat che la corsa competitiva dei browser ha ristretto la finestra per tutti. Baer ha consigliato ai team di sicurezza di dare priorità alle patch in base alla disponibilità nei contesti di runtime piuttosto che solo ai punteggi CVSS, di abbreviare la finestra tra rilevamento, definizione delle priorità e applicazione delle patch e di mantenere la visibilità della distinta base dei materiali del software in modo da sapere immediatamente dove è in esecuzione un componente vulnerabile.

Metodi diversi, quasi nessuna sovrapposizione nelle basi di codice scansionate, ma sempre lo stesso risultato. Il SAST di corrispondenza dei modelli ha un limite massimo e la logica LLM estende il rilevamento oltre questo limite. La matematica del duplice uso diventa scomoda quando due laboratori concorrenti implementano questa capacità contemporaneamente. Qualsiasi istituto finanziario o fintech che gestisce una codebase commerciale dovrebbe presumere che se Claude Code Security e Codex Security riescono a trovare questi bug, anche i concorrenti con accesso API possono trovarli.

Baer lo ha detto chiaramente: le vulnerabilità open source rivelate dai modelli di ragionamento dovrebbero essere trattate più da vicino come scoperte di classi zero-day, non come elementi accumulati. La finestra tra scoperta e sfruttamento è stata ora compressa e la maggior parte dei programmi di gestione delle vulnerabilità si attivano ancora solo utilizzando CVSS.

Cosa dimostrano le risposte del venditore?

SegretamenteLa piattaforma di sicurezza degli sviluppatori, utilizzata dai team di ingegneri per trovare e correggere le vulnerabilità nel codice e nelle dipendenze open source, ha riconosciuto il progresso tecnico ma ha sostenuto che trovare le vulnerabilità non è mai stata la parte difficile. Riparandoli su larga scala in centinaia di magazzini senza rompere nulla. Questo è il collo di bottiglia. Snyk, codice generato dall’intelligenza artificiale 2,74 volte più probabilità di causare violazioni della sicurezza rispetto al codice scritto dall’uomo Rapporto sulla sicurezza del codice GenAI 2025 di Veracode. Gli stessi modelli che hanno centinaia di zero-day rivelano anche nuove classi di vulnerabilità quando scrivono il codice.

Il CTO di Cycode Ronen Slavin ha scritto che Claude Code Security rappresenta un vero progresso tecnico nell’analisi statica, ma ha scritto: I modelli di intelligenza artificiale sono di natura probabilistica. Slavin ha sostenuto che i team di sicurezza hanno bisogno di risultati coerenti, ripetibili e di livello audit e che la funzionalità di scansione integrata in un IDE è utile ma non crea un’infrastruttura. Il punto di vista di Slavin: SAST è una disciplina con un ambito molto più ampio e la scansione gratuita non sostituisce le piattaforme che affrontano la governance su scala aziendale, l’integrità della pipeline e il comportamento di runtime.

“Se gli scanner per il ragionamento del codice nei grandi laboratori di intelligenza artificiale sono effettivamente gratuiti per i clienti aziendali, allora la scansione del codice statico diventa una merce da un giorno all’altro”, ha detto Baer a VentureBeat. Baer prevede che il budget si concentrerà su tre aree nei prossimi 12 mesi.

  1. Livelli di runtime e disponibilitàinclusa la protezione runtime e l’analisi del percorso di attacco.

  2. Governance dell’intelligenza artificiale e sicurezza dei modellicompresi guardrail, difese ad iniezione rapida e supervisione delle agenzie.

  3. Automazione del miglioramento. “L’effetto netto è che la spesa per AppSec probabilmente non diminuirà, ma il centro di gravità si sposterà dalle tradizionali licenze SAST verso strumenti che accorciano i cicli di miglioramento”, ha affermato Baer.

Sette cose da fare prima della prossima riunione del consiglio

  1. Esegui entrambi i browser rispetto a un sottoinsieme di codebase rappresentativo. Confronta i risultati di Claude Code Security e Codex Security con l’attuale output SAST. Inizia con un singolo repository rappresentativo, non con l’intera codebase. Entrambi gli strumenti sono in anteprima di ricerca a causa di restrizioni di accesso che rendono prematura la scansione completa della proprietà. Delta è il tuo inventario degli angoli ciechi.

  2. Stabilire il quadro di governance prima del progetto pilota, non dopo. Baer ha detto a VentureBeat di trattare entrambi gli strumenti come un nuovo computer, con il codice sorgente come gioiello della corona. Il modello di governance di Baer include un accordo formale sull’elaborazione dei dati con una formulazione chiara sulle esclusioni della formazione, sulla conservazione dei dati e sull’utilizzo dei sub-responsabili del trattamento, una pipeline push segmentata per garantire che vengano inoltrati solo i repository che intendi scansionare e una politica di classificazione interna che separa il codice che può sfuggire al tuo confine dal codice che non può farlo. Nelle interviste con più di 40 CISO, VentureBeat ha scoperto che i quadri di governance formale per gli strumenti di scansione basati sul ragionamento esistono ancora a malapena. Baer ha segnalato l’IP derivato come un punto cieco che la maggior parte dei team non affronta. I fornitori di modelli possono archiviare incorporamenti o tracce di ragionamento e questi artefatti sono considerati proprietà intellettuale? L’altra lacuna è il posizionamento dei dati per il codice, che in passato non era regolamentato come i dati dei clienti ma rientra sempre più sotto il controllo delle esportazioni e la revisione della sicurezza nazionale.

  3. Delinea ciò che nessuno dei due strumenti copre. Analisi della composizione del software. Scansione dei contenitori. Infrastruttura come codice. DAST. Rilevamento e risposta in fase di esecuzione. Claude Code Security e Codex Security operano al livello del ragionamento del codice. Il tuo stack esistente si prende cura di tutto il resto. Ciò che è cambiato è il potere di determinazione dei prezzi di questo stack.

  4. Misurare l’esposizione ai prodotti a duplice uso. Ogni giorno zero Anthropic e OpenAI si verificano in un progetto open source da cui dipendono le applicazioni aziendali. Entrambi i laboratori divulgano e applicano le patch in modo responsabile, ma l’intervallo tra la loro scoperta e l’adozione di tali patch è esattamente il luogo in cui operano gli aggressori. La startup di sicurezza AI AISLE ha scoperto tutto questo in modo indipendente 12 vulnerabilità zero-day nella patch di sicurezza di gennaio 2026 di OpenSSLincluso un overflow del buffer heap sfruttabile da remoto (CVE-2025-15467) senza materiale della chiave valido. I Fuzzer hanno gareggiato contro OpenSSL per anni e li hanno persi tutti. Supponiamo che i concorrenti utilizzino gli stessi modelli sulle stesse basi di codice.

  5. Tieni pronto il confronto tra schede prima che te lo chiedano. Claude Code Security valuta contestualmente il codice, monitora i flussi di dati e utilizza l’autoautenticazione in più fasi. Codex Security crea un modello di minaccia specifico per il progetto prima della scansione e convalida i risultati in ambienti protetti. Ogni strumento è in anteprima di ricerca e richiede l’approvazione umana prima dell’applicazione di eventuali patch. Il consiglio necessita di un’analisi affiancata, non di una presentazione di un singolo fornitore. Quando la conversazione si sposta sul motivo per cui alla tua attuale suite manca ciò che Anthropic ha trovato, Baer ha suggerito un’inquadratura che funziona a livello di consiglio. Baer ha dichiarato a VentureBeat che il SAST con la corrispondenza dei modelli risolve diverse generazioni di problemi. È stato progettato per rilevare anti-pattern noti. Questa capacità è ancora importante e riduce i rischi. Ma i modelli di ragionamento possono valutare la logica multi-file, le transizioni di stato e l’intento dello sviluppatore, di cui soffrono molti bug moderni. Il riassunto pronto per il consiglio di amministrazione di Baer: “Abbiamo acquistato gli strumenti giusti per le minacce dell’ultimo decennio; la tecnologia è progredita ulteriormente”.

  6. Seguire il ciclo competitivo. Entrambe le società si stanno muovendo verso le IPO, con i guadagni in termini di sicurezza aziendale che guidano la narrativa di crescita. Quando un browser non raggiunge il punto cieco, raggiunge la roadmap delle funzionalità dell’altro laboratorio entro poche settimane. Entrambi i laboratori inviano aggiornamenti del modello su cicli mensili. Questo ritmo trascenderà il programma di rilascio di qualsiasi fornitore. Baer ha affermato che eseguire entrambi è la mossa giusta: “Diversi modelli ragionano in modo diverso, e la differenza tra loro può introdurre errori che nessun singolo strumento può rilevare in modo coerente. A breve termine, utilizzarli entrambi non è ridondante. È una difesa attraverso la diversità dei sistemi di ragionamento”.

  7. Imposta una finestra pilota di 30 giorni. Prima del 20 febbraio questo test non era disponibile. Esegui Claude Code Security e Codex Security sulla stessa base di codice e lascia che delta guidi le conversazioni di acquisizione con dati empirici anziché con il marketing dei fornitori. Trenta giorni ti danno questi dati.

Ci sono stati quattordici giorni tra Anthropic e OpenAI. Il divario tra le versioni successive sarà più breve. Gli aggressori seguono lo stesso programma.

Collegamento alla fonte