Nel tentativo di tenere il passo (o anticipare) la concorrenza, i rilasci dei modelli procedono a ritmo costante: GPT-5.2 rappresenta il terzo rilascio di modelli principali di OpenAI da agosto. Il GPT-5 è stato lanciato quel mese con un nuovo sistema di routing che alterna tra la modalità di risposta istantanea e quella logica simulata, sebbene gli utenti si siano lamentati di risposte che sembravano fredde e cliniche. L’aggiornamento GPT-5.1 di novembre ha aggiunto otto opzioni di “personalità” preimpostate e si è concentrato sul rendere il sistema più colloquiale.
Il numero aumenta
Stranamente, sebbene la release del modello GPT-5.2 sia apparentemente una risposta alle prestazioni di Gemini 3, OpenAI ha scelto di non elencare alcun benchmark che confronti i due modelli sul suo sito web promozionale. Invece, i funzionari Articolo del blog GPT-5.2 si concentra sui miglioramenti e sulle nuove funzionalità di OpenAI rispetto ai suoi predecessori PILval Il benchmark, che tenta di misurare le attività lavorative di conoscenza professionale in 44 occupazioni.
Durante la conferenza stampa, OpenAI ha condiviso alcuni benchmark della concorrenza, tra cui Gemini 3 Pro e Cloud Opus 4.5, ma ha respinto la narrazione secondo cui GPT-5.2 è stato commercializzato come risposta a Google. “È importante notare che questo è in lavorazione da molti, molti mesi”, ha detto Simo dire I giornalisti, però, scegliere quando pubblicarlo, notiamo, è una decisione strategica.
Secondo i numeri condivisi, il GPT-5.2 ha ottenuto il 55,6% in Thinking SWE-Panca ProUn punto di riferimento per l’ingegneria del software, rispetto al 43,3% di Gemini 3 Pro e al 52,0% di Claude Opus 4.5. SU Diamante GPQAIn un benchmark scientifico di livello universitario, il GPT-5.2 ha ottenuto un punteggio del 92,4% contro il 91,9% del Gemini 3 Pro.
OpenAI afferma che il pensiero GPT-5.2 ha battuto o pareggiato i “professionisti umani” nel 70,9% delle attività sul benchmark GDPval (rispetto al 53,3% di Gemini 3 Pro). L’azienda afferma inoltre che il modello completa queste attività più di 11 volte più velocemente e a meno dell’1% del costo degli esperti umani.
Secondo Max Schwarzer, responsabile post-formazione di OpenAI, il pensiero GPT-5.2 genera anche risposte con il 38% di conversazioni in meno rispetto a GPT-5.1. dire VentureBeat osserva che il modello “ha allucinazioni sostanzialmente meno” rispetto al suo predecessore.
Tuttavia, prendiamo sempre i benchmark con le pinze perché è facile presentarli in un modo positivo per un’azienda, soprattutto quando la scienza della misurazione delle prestazioni dell’intelligenza artificiale non è ancora al passo con le proposte di vendita aziendali per capacità di intelligenza artificiale oggettivamente simili a quelle umane.
I risultati dei benchmark indipendenti provenienti da ricercatori esterni a OpenAI richiederanno tempo. Nel frattempo, se utilizzi ChatGPT per attività lavorative, aspettati miglioramenti incrementali e modelli decenti con buone prestazioni di codifica per buona misura.















