Di proprietà di OpenAI Introdotto GPT‑5.1-Codex-MaxUn nuovo modello di codifica mediato dai confini ora disponibile nell’ambiente di sviluppo Codex. Questa versione segna un significativo passo avanti nell’ingegneria del software basata sull’intelligenza artificiale, offrendo capacità di ragionamento a lungo raggio, efficienza e interazione in tempo reale migliorate. GPT‑5.1-Codex-Max sostituirà ora GPT‑5.1-Codex come modello predefinito sulle superfici integrate nel Codex.
Il nuovo modello è progettato per fungere da agente di sviluppo software persistente e ad alto contesto in grado di gestire refactoring complessi, eseguire il debug di flussi di lavoro e gestire attività su scala di progetto su più finestre di contesto.
Arriva subito dopo che Google ha lanciato ieri il suo nuovo potente modello Gemini 3 Pro, ma continua a surclassarlo o eguagliarlo nei principali benchmark di codifica:
Aprire Approvato SWE-Bench, GPT‑5.1-Codex-Max ha raggiunto una precisione del 77,9%. Con il suo sforzo di ragionamento estremamente elevato, ha superato il 76,2% del Gemini 3 Pro.
Ha anche portato a Terminal-Bench 2.0 ha raggiunto una precisione del 58,1% rispetto al 54,2% di Gemini. e ha eguagliato il punteggio di Gemini di 2.439 in LiveCodeBench Pro, un benchmark Elo di codifica competitivo.
Rispetto al modello Deep Thinking, che è la configurazione più avanzata del Gemini 3 Pro, Codex-Max ha anche un leggero vantaggio nei benchmark di codifica delle agenzie.
Benchmark delle prestazioni: guadagni incrementali su attività essenziali
GPT‑5.1-Codex-Max mostra miglioramenti misurabili rispetto a GPT‑5.1-Codex in una serie di benchmark standard di ingegneria del software.
L’IC SWE-Lancer ha raggiunto una precisione del 79,9% in SWE; si tratta di un aumento significativo rispetto al 66,3% del GPT‑5.1-Codex. Su SWE-Bench Verified (n=500), ha raggiunto una precisione del 77,9% con uno sforzo di ragionamento estremamente elevato, superando il 73,7% del GPT‑5.1-Codex.
Le prestazioni del Terminal Bench 2.0 (n=89) hanno mostrato miglioramenti più modesti; GPT‑5.1-Codex-Max ha raggiunto una precisione del 58,1% rispetto al 52,8% di GPT‑5.1-Codex.
Tutte le valutazioni sono state eseguite abilitando la compressione e uno sforzo di giudizio estremamente elevato.
Questi risultati suggeriscono che il nuovo modello offre un limite più elevato in termini sia di accuratezza comparativa che di usabilità nel mondo reale con carichi di ragionamento estesi.
Architettura tecnica: ragionamento a lungo orizzonte tramite compressione
Un miglioramento chiave dell’architettura in GPT‑5.1-Codex-Max è la capacità di ragionare in modo efficiente su sessioni di input-output estese utilizzando un meccanismo chiamato compressione.
Ciò consente al modello di preservare importanti informazioni contestuali scartando dettagli irrilevanti quando si avvicina al limite della finestra contestuale; consentendo in modo efficace il funzionamento continuo su milioni di token senza degrado delle prestazioni.
Il modello è stato osservato internamente per completare attività che hanno richiesto più di 24 ore, tra cui refactoring in più fasi, iterazione basata su test e debug autonomo.
La compressione aumenta anche l’efficienza dei token. GPT‑5.1-Codex-Max utilizzava circa il 30% in meno di token pensanti rispetto a GPT‑5.1-Codex per una precisione paragonabile o migliore con uno sforzo di ragionamento moderato; Ciò ha conseguenze sia in termini di costi che di ritardi.
Integrazione della piattaforma e casi d’uso
GPT‑5.1-Codex-Max è attualmente disponibile in più ambienti basati su Codex, che fanno riferimento agli strumenti e alle interfacce integrati di OpenAI creati appositamente per agenti AI basati su codice. Questi includono:
-
Codice CLILo strumento da riga di comando ufficiale di OpenAI (@openai/codex), dove GPT‑5.1-Codex-Max è già attivo.
-
Estensioni dell’IDEProbabilmente è sviluppato o gestito da OpenAI, ma non viene menzionata alcuna integrazione specifica IDE di terze parti.
-
Ambienti di codifica interattiviCome quelli utilizzati per dimostrare applicazioni di simulazione front-end come CartPole o Snell’s Law Explorer.
-
Strumenti di revisione del codice integratiUtilizzato dai team di ingegneri di OpenAI.
Per ora, GPT‑5.1-Codex-Max non è ancora disponibile tramite API pubblica, ma OpenAI afferma che lo sarà presto. Oggi, gli utenti che desiderano lavorare con il modello in ambienti terminali possono farlo installando e utilizzando la CLI Codex.
Al momento non è confermato se e come il modello verrà integrato negli IDE di terze parti a meno che non sia costruito sulla CLI o su una futura API.
Il modello ha la capacità di interagire con veicoli e simulazioni dal vivo. Gli esempi mostrati nel comunicato includono:
-
Un simulatore interattivo del gradiente delle policy CartPole che visualizza la formazione e le attivazioni dell’apprendimento per rinforzo.
-
Un esploratore ottico della legge di Snell che supporta il ray tracing dinamico attraverso gli indici di rifrazione.
Queste interfacce esemplificano la capacità del modello di ragionare in tempo reale mantenendo una sessione di sviluppo interattiva; Combina efficacemente calcolo, visualizzazione e implementazione in un unico ciclo.
Sicurezza informatica e restrizioni di sicurezza
Sebbene GPT‑5.1-Codex-Max non soddisfi la soglia di capacità “elevata” per la sicurezza informatica ai sensi del Readiness Framework di OpenAI, è attualmente il modello di sicurezza informatica più capace utilizzato da OpenAI. Supporta casi d’uso come il rilevamento e la risoluzione automatica delle vulnerabilità, ma viene fornito con sandboxing rigoroso e accesso alla rete disabilitato per impostazione predefinita.
OpenAI non segnala alcun aumento nell’uso dannoso su larga scala, ma ha implementato sistemi di monitoraggio avanzati per comportamenti sospetti, inclusi meccanismi di reindirizzamento e interruzione delle attività. Il Codex rimane isolato da uno spazio di lavoro locale a meno che gli sviluppatori non consentano un accesso più ampio; Ciò riduce i rischi come l’inclusione istantanea di contenuti non attendibili.
Contesto di distribuzione e utilizzo degli sviluppatori
GPT‑5.1-Codex-Max è attualmente disponibile per gli utenti ChatGPT Plus, Pro, Business, Education e Corporate piani. Diventerà anche il nuovo valore predefinito negli ambienti basati su Codex, sostituendo GPT‑5.1-Codex, che è un modello più generico.
OpenAI afferma che il 95% dei suoi ingegneri interni utilizza Codex su base settimanale e dalla sua adozione questi ingegneri hanno inviato in media il 70% in più di richieste pull; Ciò evidenzia l’impatto dello strumento sulla velocità di sviluppo interno.
OpenAI sottolinea che, nonostante la sua autonomia e permanenza, Codex-Max dovrebbe essere visto come un assistente alla codifica piuttosto che come un sostituto della revisione umana. Il modello produce log di terminale, estratti di test e output di chiamate di strumenti per supportare la trasparenza nel codice generato.
Aspetto
GPT‑5.1-Codex-Max rappresenta un’evoluzione significativa nella strategia di OpenAI per gli strumenti di sviluppo delle agenzie, offrendo maggiore profondità di ragionamento, efficienza dei token e capacità interattive nelle attività di ingegneria del software. Estendendo la gestione del contesto e le strategie di compressione, il modello è in grado di gestire attività su scala completa del repository anziché su singoli file o frammenti.
Con una continua enfasi sui flussi di lavoro delle agenzie, sui sandbox sicuri e sui parametri di valutazione del mondo reale, Codex-Max pone le basi per la prossima generazione di ambienti di programmazione basati sull’intelligenza artificiale e sottolinea l’importanza della supervisione in sistemi sempre più autonomi.















