Mentre O1 era un grande progresso tecnologico, GPT-5, soprattutto, un prodotto sofisticato. Durante una briefing stampa, Sam Altman ha confrontato GPT-5 con la retinica della retina di Apple, e questa è un’analogia adatta, sebbene forse non era il modo in cui intendeva. Come uno schermo nitido senza precedenti, GPT-5 presenterà un’esperienza utente più piacevole e facile. Questo non è nulla, ma questa AI trasformativa è molto meno del futuro che Altman ha speso di più nell’iping dell’anno scorso. Nel briefing, Altman ha definito il GPT-5 “un passo importante con il percorso dell’AGI”, o probabilmente chiamato intelligenza generale artificiale, e forse è giusto ma se è così, è un passo molto piccolo.

Openi prende una demo di capacità modello mostrate Revisione della tecnologia del MIT Prima della sua liberazione. Un veicolo di piombo post-allenamento in Openai ha chiesto a GPT-5 di progettare un’applicazione web, aiutando il suo partner a imparare il francese in modo da poter comunicare più facilmente con la sua famiglia. Il modello ha svolto un lavoro encomiabile di seguire le sue istruzioni e ha creato un’app attraente e amichevole. Ma quando ho dato a GPT-4o quasi la stessa indicazione, ha prodotto un’app con esattamente la stessa funzionalità. L’unica differenza è che non è stato piacevole come estetica.

Alcuni altri miglioramenti dell’esperienza utente sono più sufficienti. Avere un modello anziché l’utente, scegli se applicare la logica a ciascun querry, rimuove un importante punto dolente, in particolare per gli utenti che non seguono da vicino LLM Progress.

E, secondo Altman, il GPT -5 è molto più veloce del modello. Il fatto che Openi lo stia rilasciando a utenti non comodi, suggerisce che è anche meno costoso per l’azienda. Questa è una grande cosa: eseguire modelli economici e rapidamente potenti è un problema difficile e risolverlo è importante ridurre l’impatto ambientale dell’IA.

Openi ha anche preso provvedimenti per ridurre le allucinazioni, che sono state continuamente mal di testa. La valutazione di Openai suggerisce che i modelli GPT-5 hanno molte meno probabilità di presentare richieste errate rispetto ai loro modelli predecessori, O3 e GPT-4O. Se mantiene per il controllo del progresso, può aiutare a aprire la strada a agenti più affidabili e affidabili. “Le allucinazioni possono causare veri problemi di sicurezza e sicurezza”, afferma Don Song, professore di informatica presso UC Berkeley. Ad esempio, un agente che allega i pacchetti software può scaricare codice dannoso nel dispositivo dell’utente.

GPT-5 ha raggiunto lo stato dell’arte su diversi parametri di riferimento, tra cui i test e la valutazione della codifica delle capacità degli agenti SWE-Bench e Aider Polyglots. Ma secondo il ricercatore di AI, Clementin Fourrier nella FES abbraccia dell’azienda, sono vicini alla saturazione di valutazione, il che significa che il modello attuale ha raggiunto vicino alle massime prestazioni.

“È fondamentalmente come guardare le prestazioni di un liceo su problemi di livello medio”, afferma. “Se il liceo fallisce, ti dice qualcosa, ma se ha successo, non ti dice molto.” Fourier ha dichiarato di essere influenzato se il sistema avesse ottenuto un punteggio dell’80% o dell’85% su SWE-Bench, ma gestisce solo il 74,9%.

Alla fine, il messaggio del titolo di Openai è che sembra meglio usare GPT-5. “Le vibrazioni di questo modello sono davvero buone e penso che le persone si sentiranno davvero così, in particolare una gente media che non trascorre il loro tempo per il modello”, ha detto Nick Turley, Nick Turley, capo della chat.

Le vibrazioni da sole, tuttavia, non porteranno al futuro automatico che Altman ha promesso. L’argomento sembrava un passo importante in termini di AGI. Stiamo ancora aspettando il prossimo.

Collegamento alla fonte