La startup cinese di intelligenza artificiale Z.ai, nota per la sua potente famiglia GLM open source di modelli linguistici di grandi dimensioni (LLM), ha introdotto il GLM-5-Turbo, una nuova variante proprietaria del modello GLM-5 open source destinata ai flussi di lavoro orientati agli agenti; l’azienda lo sta posizionando come un modello più veloce ottimizzato per attività in stile OpenClaw come strumenti, esecuzione a catena lunga e automazione persistente.

Ora disponibile tramite l’interfaccia di programmazione dell’applicazione (API) di Z.ai su provider di terze parti Apri Router Con una finestra di contesto di circa 202.800 token, un throughput massimo di 131.100 e prezzi indicati a 0,96 dollari per milione di token di input e 3,20 dollari per milione di token di output. Secondo i nostri calcoli, ciò lo rende circa 0,04 dollari più economico per costo totale di input e output (1 milione di token) rispetto al modello precedente.

Modello

Entrata

Uscita

Costo totale

Fonte

Grok 4.1 Veloce

$ 0,20

$ 0,50

$ 0,70

xAI

Gemelli 3 Il Flash

$ 0,50

$ 3,00

$ 3,50

Google

Kimi-K2.5

$ 0,60

$ 3,00

$ 3,60

colpo di luna

GLM-5-Turbo

$ 0,96

$ 3,20

$ 4,16

Apri Router

GLM-5

$ 1,00

$ 3,20

$ 4,20

Zai

ClaudeHaiku4.5

$ 1,00

$ 5,00

$ 6,00

antropico

Qwen3-Max

$ 1,20

$ 6,00

$ 7,20

AlibabaNuvola

Gemelli 3 Pro

$ 2,00

$ 12,00

$ 14,00

Google

GPT-5.2

$ 1,75

$ 14,00

$ 15,75

OpenAI

GPT-5.4

$ 2,50

$ 15,00

$ 17,50

OpenAI

Claude Sonetto 4.5

$ 3,00

$ 15,00

$ 18,00

antropico

Chiudi Esegui 4.6

$ 5,00

$ 25,00

$ 30,00

antropico

GPT-5.4Pro

$ 30,00

$ 180,00

$ 210,00

OpenAI

In secondo luogo, Z.ai sta anche aggiungendo il modello al suo prodotto in abbonamento GLM Coding, il suo servizio di assistente alla codifica in bundle. Questo servizio ha tre livelli: Lite a $ 27 trimestrali, Pro a $ 81 trimestrali e Max a $ 216 trimestrali.

La nota di lancio di Z.ai del 15 marzo afferma che gli abbonati Pro riceveranno GLM-5-Turbo a marzo, mentre gli abbonati Lite riceveranno il GLM-5 base a marzo e dovrebbero attendere fino ad aprile per GLM-5-Turbo. L’azienda prende anche App ad accesso anticipato per le aziende tramite Modulo GoogleCiò dimostra che alcuni utenti potrebbero ottenere l’accesso prima di questo piano, a seconda della capacità.

z.ai descrive GLM-5-Turbo come progettato per “inferenza rapida” e “profondamente ottimizzato per flussi di lavoro di agenti reali che coinvolgono lunghe catene di esecuzione”, fornendo miglioramenti nell’analisi di istruzioni complesse, nella gestione degli agenti, nell’esecuzione pianificata e persistente e nella stabilità tra attività estese.

La versione offre agli sviluppatori una nuova opzione per creare agenti IA autonomi in stile OpenClaw e funge da segnale di dove i fornitori di modelli ritengono che si stia dirigendo la domanda aziendale: lontano dalle interfacce di chat e verso sistemi in grado di eseguire in modo affidabile lavoro in più fasi.

Gran parte della concorrenza si sta ormai muovendo in questa direzione; soprattutto tra i fornitori che cercano di conquistare sviluppatori e team aziendali creando assistenti interni, editor di flussi di lavoro e agenti di codifica.

Progettato per l’esecuzione, non solo per la chat

I materiali di Z.ai inquadrano il GLM-5-Turbo come un modello per il comportamento dell’agente simile alla produzione piuttosto che per l’utilizzo statico della risposta immediata.

La presentazione si concentra sull’affidabilità nei flussi di attività pratiche: migliore tracciamento dei comandi, strumenti più potenti, migliore gestione delle attività pianificate e persistenti ed esecuzione più rapida lungo catene logiche più lunghe. Questo posizionamento colloca il modello direttamente sul mercato per gli agenti che fanno molto di più che rispondere alle domande.

Si rivolge a sistemi in grado di raccogliere informazioni, richiamare strumenti, scomporre istruzioni e continuare a lavorare su sequenze di attività complesse con minore controllo.

Piuttosto che un semplice successore del GLM-5, il GLM-5-Turbo sembra essere una variante più focalizzata sull’esecuzione: ottimizzato per la velocità, la manovrabilità del veicolo e la stabilità degli agenti a catena lunga, mentre il GLM-5 base rimane la più ampia ammiraglia open source di Z.ai.

GLM-5-Turbo appare particolarmente competitivo negli scenari OpenClaw come ricerca e recupero di informazioni, attività d’ufficio e quotidiane, analisi dei dati, sviluppo e operazioni e automazione. Si tratta di materiali forniti dall’azienda, non di verifiche indipendenti, ma dimostrano chiaramente il posizionamento previsto del prodotto.

Background: z.ai e GLM-5 aprono la strada a Turbo

Fondata nel 2019 come filiale dell’Università Tsinghua di Pechino, Z.ai (ex Zhipu AI) è oggi una delle società modello di fondazione più note della Cina. La società ha sede a Pechino ed è guidata dal CEO Zhang Peng

Z.ai è quotata alla Borsa di Hong Kong l’8 gennaio 2026, le sue azioni hanno un prezzo di 116,20 HK $ e hanno aperto a 120 HK $, rendendolo il più grande sviluppatore indipendente cinese di modelli linguistici di grandi dimensioni con una capitalizzazione di mercato dichiarata di 52,83 miliardi di HK $.

Al 30 settembre 2025, i suoi modelli sarebbero stati utilizzati da oltre 12.000 clienti aziendali, più di 80 milioni di dispositivi per utenti finali e più di 45 milioni di sviluppatori in tutto il mondo.

L’ultima importante versione di Z.ai, la GLM-5, rilasciata nel febbraio 2026, fornisce un contesto utile per ciò che l’azienda sta attualmente cercando di fare con il GLM-5-Turbo.

GLM-5 è un modello di punta open source concesso in licenza dal MIT, ha un punteggio record per le allucinazioni nell’indice AA-Omniscience e introduce una “modalità agente” nativa in grado di convertire suggerimenti o materiali di origine in file .docx, .pdf e .xlsx pronti all’uso.

Questa versione precedente è stata inoltre considerata un importante passo tecnico per l’azienda. GLM-5 è scalato fino a 744 miliardi di parametri con 40 miliardi di attivi per token su un’architettura di esperti, ha utilizzato 28,5 trilioni di token di pre-addestramento e si è affidato a una nuova infrastruttura di apprendimento per rinforzo asincrono chiamata “slime” per ridurre i colli di bottiglia dell’addestramento e supportare un comportamento degli agenti più complesso.

Da questo punto di vista, il GLM-5-Turbo assomiglia meno a un sostituto del GLM-5 e più a un prodotto strettamente commerciale: una variante che mantiene l’orientamento agli agenti a lungo contesto della serie di punta, ma enfatizza la velocità, la stabilità e l’esecuzione nelle catene di agenti del mondo reale.

Funzionalità dello sviluppatore e packaging del modello

Dal punto di vista tecnico, Z.ai racchiude la famiglia GLM-5 con il tipo di funzionalità che gli sviluppatori ora si aspettano da modelli seri rivolti agli agenti, tra cui elaborazione di contesti lunghi, strumenti, supporto del ragionamento e integrazioni strutturate.

La pagina GLM-5-Turbo di OpenRouter elenca il supporto per strumenti, selezione degli strumenti e formattazione delle risposte, rivelando anche dati sulle prestazioni in tempo reale, inclusi throughput medio e latenza.

La telemetria del provider di OpenRouter aggiunge un utile confronto a livello di distribuzione tra GLM-5 e GLM-5-Turbo, ma i dati non sono perfettamente comparabili perché GLM-5 appare su diversi provider, mentre GLM-5-Turbo appare solo tramite Z.ai.

In termini di throughput, GLM-5-Turbo riceve una media di 48 token al secondo su OpenRouter; Ciò lo colloca al di sotto degli endpoint GLM-5 più veloci mostrati negli screenshot, inclusi Fireworks a 70 tok/s e Friendli a 58 tok/s, ma sopra i 40 tok/s di Together.

Per quanto riguarda la latenza della prima moneta, GLM-5-Turbo è più lento nei dati disponibili; Registra 0,41 secondi contro 2,92 secondi per l’endpoint GLM-5 di Friendli, 1,00 secondi per Parasail e 1,08 secondi per DeepInfra.

Ma il quadro migliora in termini di tempo di completamento end-to-end: GLM-5-Turbo arriva a 8,16 secondi, che è più veloce degli endpoint GLM-5, che vanno da 9,34 secondi in Fireworks a 11,23 secondi in DeepInfra.

Il vantaggio operativo più notevole è l’affidabilità dello strumento. GLM-5-Turbo mostra un tasso di errore nelle chiamate di squadra dello 0,67%; questo è significativamente inferiore rispetto ai fornitori GLM-5 mostrati; Qui i tassi di errore variano tra il 2,33% e il 6,41%.

Per i team aziendali, ciò suggerisce un modello che potrebbe non vincere in termini di reattività iniziale nell’attuale routing OpenRouter, ma potrebbe comunque essere più adatto a corse di veicoli più lunghe in cui la stabilità del completamento e il minor numero di guasti del veicolo sono più importanti del token iniziale più veloce.

Confronto e prezzi

Il grafico radar ZClawBench pubblicato da z.ai mostra che GLM-5-Turbo è particolarmente competitivo negli scenari OpenClaw come ricerca e raccolta di informazioni, attività d’ufficio e quotidiane, analisi dei dati, sviluppo e operazioni e automazione.

Queste sono immagini di riferimento fornite dall’azienda, non verifiche indipendenti, ma aiutano a spiegare come Z.ai vuole che i due modelli vengano interpretati: il GLM-5 come codifica più ampia e fiore all’occhiello aperto, e il Turbo come variante di esecuzione dell’agente più mirata.

Un segnale di licenza più sottile

Un avvertimento notevole riguarda la licenza. Z.ai afferma che il GLM-5-Turbo è attualmente closed source, ma afferma anche che le capacità e i risultati del modello saranno inclusi nella prossima versione del modello open source. Questa è una distinzione importante. L’azienda non promette esplicitamente che GLM-5-Turbo sarà disponibile come open source.

Si dice invece che le lezioni, le tecniche e i miglioramenti contenuti in questa versione informino il futuro modello aperto. Ciò rende il lancio più sottile di una rottura definitiva con l’apertura.

La precedente strategia GLM di Za.ai si basava fortemente su versioni aperte e distribuzione aperta del peso, che l’hanno aiutata a ottenere visibilità tra gli sviluppatori.

Il mercato cinese dell’intelligenza artificiale potrebbe riequilibrarsi allontanandosi dall’open source

La posizione di licenza del GLM-5-Turbo fa appello anche al più ampio mercato cinese, rendendo il lancio più degno di nota di un semplice aggiornamento del prodotto.

Le notizie sull’unità Qwen di Alibaba nelle ultime settimane hanno sollevato nuove domande su come i principali laboratori cinesi di intelligenza artificiale riusciranno a bilanciare i rilasci aperti con la pressione commerciale.

All’inizio di questo mese, il presidente della divisione Qwen Lin Junyang si è dimesso, diventando il terzo dirigente senior di Qwen a lasciare nel 2026; tuttavia, la famiglia Qwen di Alibaba rimane uno degli sforzi di modello aperto più prolifici al mondo, con oltre 400 modelli open source rilasciati dal 2023 e oltre 1 miliardo di download.

Lo ha riferito successivamente la Reuters Il 16 marzo è stato annunciato che il CEO di Alibaba, Eddie Wu, assumerà il controllo diretto Fa parte di un nuovo gruppo aziendale focalizzato sull’intelligenza artificiale che sta combinando Qwen e altre unità in un contesto di strategia, redditività e feroce concorrenza sui prezzi che circonda le offerte di modelli aperti in Cina.

Anche senza esagerare, questi sviluppi aiutano a inquadrare la questione più ampia che incombe sul settore: se l’economia di frontiera dell’intelligenza artificiale sta iniziando a spingere anche i laboratori cinesi storicamente inclini al deficit verso una strategia più segmentata.

Ciò non significa che i laboratori cinesi abbiano abbandonato l’open source. Ma il modello sta diventando sempre più difficile da ignorare: mentre i modelli aperti possono aiutare ad aumentare l’adozione, la buona volontà degli sviluppatori e la portata dell’ecosistema, alcune varianti di alto valore rivolte ad agenti aziendali, flussi di lavoro di codifica e altri casi d’uso commercialmente attraenti potrebbero sempre più arrivare prima come prodotti proprietari.

In questo senso, GLM-5-Turbo si inserisce in un possibile cambiamento più ampio nel mercato cinese dell’intelligenza artificiale; Questo cambiamento assomiglia sempre più al playbook utilizzato da OpenAI, Anthropic e Google negli Stati Uniti: apertura come distribuzione, sistemi proprietari come business.

Da questo punto di vista, il GLM-5-Turbo sembra più di un semplice aggiornamento del prodotto incentrato sulla velocità. Questo potrebbe essere un altro segnale che parte del settore cinese dell’intelligenza artificiale si sta muovendo verso lo stesso modello ibrido già prevalente negli Stati Uniti: apertura come implementazione, sistemi proprietari come business.

Ciò non significa la fine dell’intelligenza artificiale open source dei laboratori cinesi, ma potrebbe significare che le loro offerte focalizzate sugli agenti strategicamente più importanti emergono prima dopo l’accesso chiuso, anche se alcuni dei loro progressi chiave arrivano successivamente alle versioni aperte.

Per gli sviluppatori che valutano piattaforme rappresentative, ciò rende GLM-5-Turbo sia un lancio di prodotto che un segnale utile. Za.ai parla ancora il linguaggio dei modelli aperti. Ma con questa versione, si dimostra anche che parte del suo lavoro più rilevante dal punto di vista commerciale potrebbe arrivare innanzitutto come infrastruttura proprietaria per sistemi di intermediazione a livello aziendale.

Collegamento alla fonte