Startup cinese di intelligenza artificiale Zipu AI, alias Z.ai lancia la serie GLM-4.6VModelli di linguaggio di visualizzazione (VLM) open source di prossima generazione ottimizzati per il ragionamento multimodale, l’automazione front-end e l’implementazione ad alto throughput.
La versione include due modelli "grande" E "Piccolo" dimensioni:
-
GLM-4.6V (106B)un modello più ampio da 106 miliardi di parametri finalizzato all’inferenza su scala cloud
-
Flash GLM-4.6V (9B)Un modello più piccolo con solo 9 miliardi di parametri progettato per applicazioni native a bassa latenza
Ricordiamo che, in generale, i modelli con più parametri (o impostazioni interne che ne governano il comportamento, ad esempio pesi e pregiudizi) sono più potenti, performanti e capaci di funzionare a un livello complessivo più elevato su una più ampia varietà di compiti.
Tuttavia, i modelli più piccoli possono offrire una migliore efficienza per le applicazioni edge o in tempo reale in cui latenza e vincoli di risorse sono fondamentali.
L’innovazione decisiva in questa serie è chiamata di funzione nativa in un modello di linguaggio visivo che consente l’uso diretto di strumenti come la ricerca, il ritaglio o il riconoscimento grafico con input visivi.
Con una lunghezza del contesto token di 128.000 (equivalente al testo di un romanzo di 300 pagine scambiato in una singola interazione di input/output con l’utente) e risultati all’avanguardia (SoTA) su oltre 20 benchmark, la serie GLM-4.6V si posiziona come un’alternativa altamente competitiva ai VLM sia chiusi che open source. Disponibile nei seguenti formati:
-
Accesso all’API Tramite interfaccia compatibile OpenAI
-
Prova la demo Nell’interfaccia web di Zhipu
-
Scarica pesi A causa dell’Abbraccio
-
L’app Assistente desktop è disponibile all’indirizzo: Aree del viso che abbracciano
Licenze e uso aziendale
GLM‑4.6V e GLM‑4.6V‑Flash sono distribuiti come segue: LA MIA patenteUna licenza open source che consente l’uso commerciale e non commerciale, la modifica, la ridistribuzione e la distribuzione locale gratuiti senza richiedere opere derivate open source.
Questo modello di licenza rende la serie adatta all’adozione aziendale, inclusi scenari che richiedono il pieno controllo dell’infrastruttura, la conformità con la gestione interna o ambienti con gap d’aria.
I pesi e la documentazione dei modelli sono ospitati pubblicamente. Volto che abbracciail codice e gli strumenti di supporto sono disponibili all’indirizzo: GitHub.
La licenza MIT offre la massima flessibilità per l’integrazione in sistemi personalizzati, inclusi strumenti interni, linee di produzione e implementazioni edge.
Capacità architettoniche e tecniche
I modelli GLM-4.6V seguono un’architettura codificatore-decodificatore convenzionale con adattamenti significativi per l’ingresso multimodale.
Entrambi i modelli sono dotati di un codificatore Vision Transformer (ViT) basato su AIMv2-Huge e di un proiettore MLP per allineare le caratteristiche visive con il decoder LLM (Large Language Model).
Gli input video beneficiano delle convoluzioni 3D e della compressione temporale, mentre la codifica spaziale viene eseguita utilizzando 2D-RoPE e l’interpolazione bicubica di incorporamenti spaziali assoluti.
Una caratteristica tecnica chiave è che il sistema supporta risoluzioni di immagine e proporzioni opzionali, inclusi ampi ingressi panoramici fino a 200:1.
Oltre all’analisi statica di immagini e documenti, GLM-4.6V consente un potente ragionamento temporale recuperando sequenze di fotogrammi video temporali contenenti identificatori di timestamp espliciti.
Dal punto di vista della decodifica, il modello supporta la tokenizzazione compatibile con i protocolli di chiamata di funzioni, consentendo un ragionamento strutturato tra testo, immagini e output dello strumento. Ciò è supportato dal dizionario tokenizzatore esteso e dai modelli di formattazione dell’output per garantire una compatibilità API o broker coerente.
Utilizzo locale di veicoli multimodali
GLM-4.6V introduce la chiamata di funzioni multimodali native, consentendo di passare direttamente agli strumenti come parametri risorse visive come screenshot, immagini e documenti. Ciò elimina la necessità di conversioni intermedie di solo testo, che in passato hanno causato perdita di informazioni e complessità.
Il meccanismo del ride-hailing funziona in due modi:
-
Immagini o video possono essere importati direttamente negli strumenti di input (ad esempio, pagine di documenti da ritagliare o analizzare).
-
Gli strumenti di output, come i generatori di grafici o le utilità di snapshot web, restituiscono dati visivi che GLM-4.6V integra direttamente nella catena di ragionamento.
In pratica, ciò significa che il GLM-4.6V può completare compiti come:
-
Crea report strutturati da documenti in formato misto
-
Ispezione visiva delle immagini candidate
-
Ritaglia automaticamente le figure sui fogli durante la creazione
-
Esegui ricerche web visive e rispondi a domande multimodali
Confronti ad alte prestazioni rispetto ad altri modelli di dimensioni simili
GLM-4.6V è stato valutato in più di 20 benchmark pubblici che coprono VQA generale, comprensione dei grafici, OCR, ragionamento STEM, replica front-end e agenti multimodali.
Secondo il grafico di riferimento pubblicato da Zhipu AI:
-
GLM-4.6V (106B) ottiene punteggi SoTA o quasi SoTA tra i modelli open source di dimensioni comparabili (106B) in MMMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench e altri.
-
Il GLM-4.6V-Flash (9B) supera gli altri modelli leggeri (ad esempio Qwen3-VL-8B, GLM-4.1V-9B) in quasi tutte le categorie testate.
-
La finestra token da 128K del modello 106B gli consente di sovraperformare modelli più grandi come Step-3 (321B) e Qwen3-VL-235B su attività di documenti a lungo contesto, riepilogo video e ragionamento multimodale strutturato.
I punteggi di esempio nella classifica includono:
-
MathVista: 88,2 (GLM-4.6V) rispetto a 84,6 (GLM-4.5V) rispetto a 81,4 (Qwen3-VL-8B)
-
WebVoyager: 81.0 e 68.4 (Qwen3-VL-8B)
-
Test Ref-L4: 88,9 vs 89,5 (GLM-4.5V), ma con migliore precisione al suolo a 86,8 vs 87,7 (Flash)
Entrambi i modelli sono stati valutati utilizzando il backend di inferenza vLLM e supportano SGLang per attività basate su video.
Automazione front-end e flussi di lavoro a lungo contesto
Zhipu AI ha evidenziato la capacità di GLM-4.6V di supportare flussi di lavoro di sviluppo front-end. Il modello può:
-
Copia HTML/CSS/JS con precisione pixel dagli screenshot dell’interfaccia utente
-
Accetta comandi di modifica del linguaggio naturale per modificare i layout
-
Identificare visivamente e sostituire componenti specifici dell’interfaccia utente
Questa funzionalità è integrata nell’interfaccia di programmazione visiva end-to-end, dove esegue l’iterazione sul layout, sull’intento di progettazione e sul codice di output utilizzando la comprensione nativa delle schermate acquisite dal modello.
Negli scenari con documenti lunghi, GLM-4.6V può gestire fino a 128.000 token, fornendo un singolo passaggio di inferenza:
-
150 pagine di testo (introduzione)
-
200 deck di diapositive
-
Video di 1 ora
Zhipu AI ha riferito che il modello è stato utilizzato con successo nell’analisi finanziaria di più corpora di documenti e nel riepilogo di trasmissioni sportive complete con rilevamento di eventi con timestamp.
Formazione e apprendimento per rinforzo
Il modello è stato addestrato utilizzando un pre-addestramento multifase seguito da un perfezionamento supervisionato (SFT) e da un apprendimento per rinforzo (RL). Le principali innovazioni includono:
-
Campionamento del curriculum (RLCS): regola dinamicamente la difficoltà degli esempi di formazione in base al progresso del modello
-
Sistemi di ricompensa multidominio: validatori specifici per attività, ragionamento grafico, agenti GUI, QA video e messa a terra spaziale per STEM
-
Formazione consapevole delle funzioni: utilizzo di etichette strutturate (ad es.
, , <|begin_of_box|>) utilizza
La pipeline di apprendimento per rinforzo enfatizza le ricompense verificabili (RLVR) rispetto al feedback umano (RLHF) per la scalabilità ed evita perdite KL/entropia per stabilizzare la formazione in domini multimodali
Prezzi (API)
Zhipu AI offre prezzi competitivi per la serie GLM-4.6V, con sia il modello di punta che il modello leggero posizionati per un’elevata disponibilità.
-
GLM-4.6V: $ 0,30 (in entrata) / $ 0,90 (in uscita) per 1 milione di token
-
Flash GLM-4.6V: gratuito
Rispetto ai principali LLM abilitati alla visione e basati sul testo, GLM-4.6V è tra i più convenienti per il ragionamento multimodale su larga scala. Di seguito è riportata una visione comparativa dei prezzi tra i fornitori:
USD per 1 milione di token: ordinati in base al costo totale più basso → più alto
|
Modello |
Entrata |
Uscita |
Costo totale |
Fonte |
|
Qwen3Turbo |
$ 0,05 |
$ 0,20 |
$ 0,25 |
|
|
ERNIE 4.5 Turbo |
$ 0,11 |
$ 0,45 |
$ 0,56 |
|
|
GLM‑4,6 V |
$ 0,30 |
$ 0,90 |
$ 1,20 |
|
|
Grok 4.1 Veloce (ragionamento) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
Grok 4.1 Veloce (non ragionante) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
chat di ricerca approfondita (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
ragionatore di ricerca approfondito (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
Qwen3 Plus |
$ 0,40 |
$ 1,20 |
$ 1,60 |
|
|
ERNI 5.0 |
$ 0,85 |
$ 3,40 |
$ 4,25 |
|
|
Qwen-Max |
$ 1,60 |
$ 6,40 |
$ 8,00 |
|
|
GPT-5.1 |
$ 1,25 |
$ 10,00 |
$ 11,25 |
|
|
Gemini 2.5 Pro (≤200.000) |
$ 1,25 |
$ 10,00 |
$ 11,25 |
|
|
Gemini 3 Pro (≤200.000) |
$ 2,00 |
$ 12,00 |
$ 14,00 |
|
|
Gemini 2.5 Pro (>200K) |
$ 2,50 |
$ 15,00 |
$ 17,50 |
|
|
Grok 4 (0709) |
$ 3,00 |
$ 15,00 |
$ 18,00 |
|
|
Gemini 3 Pro (>200K) |
$ 4,00 |
$ 18,00 |
$ 22,00 |
|
|
Chiudi Esegui 4.1 |
$ 15,00 |
$ 75,00 |
$ 90,00 |
Versioni precedenti: serie GLM‑4.5 e applicazioni aziendali
Prima di GLM‑4.6V, Z.ai ha rilasciato la famiglia GLM‑4.5 a metà del 2025, affermando l’azienda come un serio concorrente nello sviluppo LLM open source.
L’ammiraglia GLM‑4.5 e il suo fratello minore, GLM‑4.5‑Air, supportano il ragionamento, l’uso degli strumenti, la codifica e il comportamento mediato, offrendo allo stesso tempo ottime prestazioni nei benchmark standard.
I modelli introducevano due modalità di ragionamento (“pensare” e “non pensare”) e potevano creare automaticamente presentazioni PowerPoint complete da un unico prompt dei comandi; Si tratta di una funzionalità posizionata per l’uso nei flussi di lavoro di reporting aziendale, formazione e comunicazione interna. Z.ai ha inoltre ampliato la serie GLM‑4.5 con varianti aggiuntive come GLM‑4.5‑X, AirX e Flash, mirate a inferenza ultraveloce e scenari a basso costo.
Insieme, queste caratteristiche posizionano la serie GLM‑4.5 come un’alternativa conveniente, aperta e pronta per la produzione per le organizzazioni che necessitano di autonomia sulla distribuzione del modello, sulla gestione del ciclo di vita e sulla pipeline di integrazione.
Impatti sull’ecosistema
La versione GLM-4.6V rappresenta un progresso significativo nell’intelligenza artificiale multimodale open source. Sebbene i principali modelli linguistici di visualizzazione siano proliferati nell’ultimo anno, pochi offrono:
-
Utilizzo di strumenti visivi integrati
-
Generazione multimodale strutturata
-
Memoria orientata agli agenti e logica decisionale
L’enfasi di Zhipu AI sulla “chiusura del ciclo” dalla percezione all’azione tramite la chiamata di funzioni locali segna un passo verso sistemi multimodali mediati.
L’architettura del modello e la pipeline di formazione dimostrano la continua evoluzione della famiglia GLM, posizionandola competitivamente insieme a offerte come GPT-4V di OpenAI e Gemini-VL di Google DeepMind.
Da asporto per i leader aziendali
Con GLM-4.6V, Zhipu AI offre un VLM open source con strumenti visivi nativi, ragionamento contestuale lungo e automazione front-end. Stabilisce nuovi parametri di riferimento prestazionali tra modelli di dimensioni simili e fornisce una piattaforma scalabile per la creazione di sistemi di intelligenza artificiale mediati e multimodali.















