Ma 1.000 token al secondo sono davvero modesti per gli standard di Cerebrus. Ci sono aziende misurazione Lama 3.1 70B e 2.100 gettoni al secondo Rapporto 3.000 token al secondo sul modello gpt-oss-120B a peso aperto di OpenAI, suggerendo che la velocità relativamente bassa di Codex-Spark riflette il sovraccarico di un modello più grande o più complesso.

Strumenti come Codex di OpenAI e Claude Code di Anthropic hanno raggiunto un nuovo livello di utilità per la prototipazione rapida, l’interfaccia e la creazione di codici standard. OpenAI, Google e Anthropic stanno tutti gareggiando per fornire agenti di codifica più efficienti e la latenza ha individuato i vincitori; Un modello che codifica rapidamente consente allo sviluppatore di eseguire rapidamente l’iterazione

Con la forte concorrenza di Anthropic, OpenAI sta ripetendo rapidamente la sua linea di codec, rilasciando GPT-5.2 a dicembre dopo che il CEO Sam Altman ha emesso una nota interna “Code Red” sulla pressione competitiva di Google, dopo aver spedito il codice GPT-5.3 pochi giorni prima.

Versatilità da Nvidia

La profonda storia dell’hardware di Spark potrebbe essere più gratificante dei suoi punteggi nei benchmark. Il modello funziona con il Wafer Scale Engine 3 di Cerebras, un chip delle dimensioni di un piatto piano su cui Cerebras sta costruendo la propria attività almeno dal 2022. OpenAI e Cerebras annuncio La loro partnership è iniziata a gennaio e Codex-Spark è il primo prodotto a venirne fuori.

OpenAI ha trascorso l’ultimo anno riducendo sistematicamente la propria dipendenza da Nvidia. La società ha firmato un massiccio accordo pluriennale con AMD fino a ottobre 2025, un accordo di cloud computing da 38 miliardi di dollari con Amazon a novembre e sta progettando i propri chip AI personalizzati per la fabbricazione finale da parte di TSMC.

Nel frattempo, un accordo infrastrutturale pianificato da 100 miliardi di dollari con Nvidia è finora in fase di stallo, sebbene Nvidia si sia impegnata a investire 20 miliardi di dollari. Reuters ha riferito che OpenAI non era soddisfatta della velocità di alcuni chip Nvidia per le attività di inferenza, che sono esattamente il tipo di carichi di lavoro per cui OpenAI ha progettato Codex-Spark.

Indipendentemente dal chip sotto il cofano, la velocità è importante, anche se può andare a scapito della precisione. Per gli sviluppatori che trascorrono le loro giornate aspettando i consigli dell’intelligenza artificiale in un editor di codice, 1.000 token al secondo possono sembrare meno come manipolare attentamente un puzzle e più come eseguire una sega. Guarda cosa stai tagliando.

Collegamento alla fonte