Home Politica Z.ai rilascia GLM-4.6V open source, un modello di immagine nativo di ride-hailing...

Politica

Z.ai rilascia GLM-4.6V open source, un modello di immagine nativo di ride-hailing per il ragionamento multimodale

9 Dicembre 2025

Startup cinese di intelligenza artificiale Zipu AI, alias Z.ai lancia la serie GLM-4.6VModelli di linguaggio di visualizzazione (VLM) open source di prossima generazione ottimizzati per il ragionamento multimodale, l’automazione front-end e l’implementazione ad alto throughput.

La versione include due modelli "grande" E "Piccolo" dimensioni:

GLM-4.6V (106B)un modello più ampio da 106 miliardi di parametri finalizzato all’inferenza su scala cloud
Flash GLM-4.6V (9B)Un modello più piccolo con solo 9 miliardi di parametri progettato per applicazioni native a bassa latenza

Ricordiamo che, in generale, i modelli con più parametri (o impostazioni interne che ne governano il comportamento, ad esempio pesi e pregiudizi) sono più potenti, performanti e capaci di funzionare a un livello complessivo più elevato su una più ampia varietà di compiti.

Tuttavia, i modelli più piccoli possono offrire una migliore efficienza per le applicazioni edge o in tempo reale in cui latenza e vincoli di risorse sono fondamentali.

L’innovazione decisiva in questa serie è chiamata di funzione nativa in un modello di linguaggio visivo che consente l’uso diretto di strumenti come la ricerca, il ritaglio o il riconoscimento grafico con input visivi.

Con una lunghezza del contesto token di 128.000 (equivalente al testo di un romanzo di 300 pagine scambiato in una singola interazione di input/output con l’utente) e risultati all’avanguardia (SoTA) su oltre 20 benchmark, la serie GLM-4.6V si posiziona come un’alternativa altamente competitiva ai VLM sia chiusi che open source. Disponibile nei seguenti formati:

Accesso all’API Tramite interfaccia compatibile OpenAI
Prova la demo Nell’interfaccia web di Zhipu
Scarica pesi A causa dell’Abbraccio
L’app Assistente desktop è disponibile all’indirizzo: Aree del viso che abbracciano

Licenze e uso aziendale

GLM‑4.6V e GLM‑4.6V‑Flash sono distribuiti come segue: LA MIA patenteUna licenza open source che consente l’uso commerciale e non commerciale, la modifica, la ridistribuzione e la distribuzione locale gratuiti senza richiedere opere derivate open source.

Questo modello di licenza rende la serie adatta all’adozione aziendale, inclusi scenari che richiedono il pieno controllo dell’infrastruttura, la conformità con la gestione interna o ambienti con gap d’aria.

I pesi e la documentazione dei modelli sono ospitati pubblicamente. Volto che abbracciail codice e gli strumenti di supporto sono disponibili all’indirizzo: GitHub.

La licenza MIT offre la massima flessibilità per l’integrazione in sistemi personalizzati, inclusi strumenti interni, linee di produzione e implementazioni edge.

Capacità architettoniche e tecniche

I modelli GLM-4.6V seguono un’architettura codificatore-decodificatore convenzionale con adattamenti significativi per l’ingresso multimodale.

Entrambi i modelli sono dotati di un codificatore Vision Transformer (ViT) basato su AIMv2-Huge e di un proiettore MLP per allineare le caratteristiche visive con il decoder LLM (Large Language Model).

Gli input video beneficiano delle convoluzioni 3D e della compressione temporale, mentre la codifica spaziale viene eseguita utilizzando 2D-RoPE e l’interpolazione bicubica di incorporamenti spaziali assoluti.

Una caratteristica tecnica chiave è che il sistema supporta risoluzioni di immagine e proporzioni opzionali, inclusi ampi ingressi panoramici fino a 200:1.

Oltre all’analisi statica di immagini e documenti, GLM-4.6V consente un potente ragionamento temporale recuperando sequenze di fotogrammi video temporali contenenti identificatori di timestamp espliciti.

Dal punto di vista della decodifica, il modello supporta la tokenizzazione compatibile con i protocolli di chiamata di funzioni, consentendo un ragionamento strutturato tra testo, immagini e output dello strumento. Ciò è supportato dal dizionario tokenizzatore esteso e dai modelli di formattazione dell’output per garantire una compatibilità API o broker coerente.

Utilizzo locale di veicoli multimodali

GLM-4.6V introduce la chiamata di funzioni multimodali native, consentendo di passare direttamente agli strumenti come parametri risorse visive come screenshot, immagini e documenti. Ciò elimina la necessità di conversioni intermedie di solo testo, che in passato hanno causato perdita di informazioni e complessità.

Il meccanismo del ride-hailing funziona in due modi:

Immagini o video possono essere importati direttamente negli strumenti di input (ad esempio, pagine di documenti da ritagliare o analizzare).
Gli strumenti di output, come i generatori di grafici o le utilità di snapshot web, restituiscono dati visivi che GLM-4.6V integra direttamente nella catena di ragionamento.

In pratica, ciò significa che il GLM-4.6V può completare compiti come:

Crea report strutturati da documenti in formato misto
Ispezione visiva delle immagini candidate
Ritaglia automaticamente le figure sui fogli durante la creazione
Esegui ricerche web visive e rispondi a domande multimodali

Confronti ad alte prestazioni rispetto ad altri modelli di dimensioni simili

GLM-4.6V è stato valutato in più di 20 benchmark pubblici che coprono VQA generale, comprensione dei grafici, OCR, ragionamento STEM, replica front-end e agenti multimodali.

Secondo il grafico di riferimento pubblicato da Zhipu AI:

GLM-4.6V (106B) ottiene punteggi SoTA o quasi SoTA tra i modelli open source di dimensioni comparabili (106B) in MMMBench, MathVista, MMLongBench, ChartQAPro, RefCOCO, TreeBench e altri.
Il GLM-4.6V-Flash (9B) supera gli altri modelli leggeri (ad esempio Qwen3-VL-8B, GLM-4.1V-9B) in quasi tutte le categorie testate.
La finestra token da 128K del modello 106B gli consente di sovraperformare modelli più grandi come Step-3 (321B) e Qwen3-VL-235B su attività di documenti a lungo contesto, riepilogo video e ragionamento multimodale strutturato.

I punteggi di esempio nella classifica includono:

MathVista: 88,2 (GLM-4.6V) rispetto a 84,6 (GLM-4.5V) rispetto a 81,4 (Qwen3-VL-8B)
WebVoyager: 81.0 e 68.4 (Qwen3-VL-8B)
Test Ref-L4: 88,9 vs 89,5 (GLM-4.5V), ma con migliore precisione al suolo a 86,8 vs 87,7 (Flash)

Entrambi i modelli sono stati valutati utilizzando il backend di inferenza vLLM e supportano SGLang per attività basate su video.

Automazione front-end e flussi di lavoro a lungo contesto

Zhipu AI ha evidenziato la capacità di GLM-4.6V di supportare flussi di lavoro di sviluppo front-end. Il modello può:

Copia HTML/CSS/JS con precisione pixel dagli screenshot dell’interfaccia utente
Accetta comandi di modifica del linguaggio naturale per modificare i layout
Identificare visivamente e sostituire componenti specifici dell’interfaccia utente

Questa funzionalità è integrata nell’interfaccia di programmazione visiva end-to-end, dove esegue l’iterazione sul layout, sull’intento di progettazione e sul codice di output utilizzando la comprensione nativa delle schermate acquisite dal modello.

Negli scenari con documenti lunghi, GLM-4.6V può gestire fino a 128.000 token, fornendo un singolo passaggio di inferenza:

150 pagine di testo (introduzione)
200 deck di diapositive
Video di 1 ora

Zhipu AI ha riferito che il modello è stato utilizzato con successo nell’analisi finanziaria di più corpora di documenti e nel riepilogo di trasmissioni sportive complete con rilevamento di eventi con timestamp.

Formazione e apprendimento per rinforzo

Il modello è stato addestrato utilizzando un pre-addestramento multifase seguito da un perfezionamento supervisionato (SFT) e da un apprendimento per rinforzo (RL). Le principali innovazioni includono:

Campionamento del curriculum (RLCS): regola dinamicamente la difficoltà degli esempi di formazione in base al progresso del modello
Sistemi di ricompensa multidominio: validatori specifici per attività, ragionamento grafico, agenti GUI, QA video e messa a terra spaziale per STEM
Formazione consapevole delle funzioni: utilizzo di etichette strutturate (ad es. , , <|begin_of_box|>) utilizza

La pipeline di apprendimento per rinforzo enfatizza le ricompense verificabili (RLVR) rispetto al feedback umano (RLHF) per la scalabilità ed evita perdite KL/entropia per stabilizzare la formazione in domini multimodali

Prezzi (API)

Zhipu AI offre prezzi competitivi per la serie GLM-4.6V, con sia il modello di punta che il modello leggero posizionati per un’elevata disponibilità.

GLM-4.6V: $ 0,30 (in entrata) / $ 0,90 (in uscita) per 1 milione di token
Flash GLM-4.6V: gratuito

Rispetto ai principali LLM abilitati alla visione e basati sul testo, GLM-4.6V è tra i più convenienti per il ragionamento multimodale su larga scala. Di seguito è riportata una visione comparativa dei prezzi tra i fornitori:

USD per 1 milione di token: ordinati in base al costo totale più basso → più alto

Modello	Entrata	Uscita	Costo totale	Fonte
Qwen3Turbo	$ 0,05	$ 0,20	$ 0,25	AlibabaNuvola
ERNIE 4.5 Turbo	$ 0,11	$ 0,45	$ 0,56	qianfan
GLM‑4,6 V	$ 0,30	$ 0,90	$ 1,20	Z.AI
Grok 4.1 Veloce (ragionamento)	$ 0,20	$ 0,50	$ 0,70	xAI
Grok 4.1 Veloce (non ragionante)	$ 0,20	$ 0,50	$ 0,70	xAI
chat di ricerca approfondita (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	Ricerca approfondita
ragionatore di ricerca approfondito (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	Ricerca approfondita
Qwen3 Plus	$ 0,40	$ 1,20	$ 1,60	AlibabaNuvola
ERNI 5.0	$ 0,85	$ 3,40	$ 4,25	qianfan
Qwen-Max	$ 1,60	$ 6,40	$ 8,00	AlibabaNuvola
GPT-5.1	$ 1,25	$ 10,00	$ 11,25	OpenAI
Gemini 2.5 Pro (≤200.000)	$ 1,25	$ 10,00	$ 11,25	Google
Gemini 3 Pro (≤200.000)	$ 2,00	$ 12,00	$ 14,00	Google
Gemini 2.5 Pro (>200K)	$ 2,50	$ 15,00	$ 17,50	Google
Grok 4 (0709)	$ 3,00	$ 15,00	$ 18,00	xAI
Gemini 3 Pro (>200K)	$ 4,00	$ 18,00	$ 22,00	Google
Chiudi Esegui 4.1	$ 15,00	$ 75,00	$ 90,00	antropico

Versioni precedenti: serie GLM‑4.5 e applicazioni aziendali

Prima di GLM‑4.6V, Z.ai ha rilasciato la famiglia GLM‑4.5 a metà del 2025, affermando l’azienda come un serio concorrente nello sviluppo LLM open source.

L’ammiraglia GLM‑4.5 e il suo fratello minore, GLM‑4.5‑Air, supportano il ragionamento, l’uso degli strumenti, la codifica e il comportamento mediato, offrendo allo stesso tempo ottime prestazioni nei benchmark standard.

I modelli introducevano due modalità di ragionamento (“pensare” e “non pensare”) e potevano creare automaticamente presentazioni PowerPoint complete da un unico prompt dei comandi; Si tratta di una funzionalità posizionata per l’uso nei flussi di lavoro di reporting aziendale, formazione e comunicazione interna. Z.ai ha inoltre ampliato la serie GLM‑4.5 con varianti aggiuntive come GLM‑4.5‑X, AirX e Flash, mirate a inferenza ultraveloce e scenari a basso costo.

Insieme, queste caratteristiche posizionano la serie GLM‑4.5 come un’alternativa conveniente, aperta e pronta per la produzione per le organizzazioni che necessitano di autonomia sulla distribuzione del modello, sulla gestione del ciclo di vita e sulla pipeline di integrazione.

Impatti sull’ecosistema

La versione GLM-4.6V rappresenta un progresso significativo nell’intelligenza artificiale multimodale open source. Sebbene i principali modelli linguistici di visualizzazione siano proliferati nell’ultimo anno, pochi offrono:

Utilizzo di strumenti visivi integrati
Generazione multimodale strutturata
Memoria orientata agli agenti e logica decisionale

L’enfasi di Zhipu AI sulla “chiusura del ciclo” dalla percezione all’azione tramite la chiamata di funzioni locali segna un passo verso sistemi multimodali mediati.

L’architettura del modello e la pipeline di formazione dimostrano la continua evoluzione della famiglia GLM, posizionandola competitivamente insieme a offerte come GPT-4V di OpenAI e Gemini-VL di Google DeepMind.

Da asporto per i leader aziendali

Con GLM-4.6V, Zhipu AI offre un VLM open source con strumenti visivi nativi, ragionamento contestuale lungo e automazione front-end. Stabilisce nuovi parametri di riferimento prestazionali tra modelli di dimensioni simili e fornisce una piattaforma scalabile per la creazione di sistemi di intelligenza artificiale mediati e multimodali.

Collegamento alla fonte

Z.ai rilascia GLM-4.6V open source, un modello di immagine nativo di ride-hailing per il ragionamento multimodale

Licenze e uso aziendale

Capacità architettoniche e tecniche

Utilizzo locale di veicoli multimodali

Confronti ad alte prestazioni rispetto ad altri modelli di dimensioni simili

Automazione front-end e flussi di lavoro a lungo contesto

Formazione e apprendimento per rinforzo

Prezzi (API)

Versioni precedenti: serie GLM‑4.5 e applicazioni aziendali

Impatti sull’ecosistema

Da asporto per i leader aziendali

Ultimo post

Le potenziali richieste di denaro di Aaron Rodgers mettono i fan...

Pin AI di Apple trapelato: accessorio indossabile 2027 per iPhone AI

Ocarina of Time Remake Leak pubblicherà “Furious” per Nintendo, dice un...

Scott Mills, DJ di BBC Radio 2, licenziato

L’indice del dollaro USA è in rialzo a causa delle tensioni...

16 anni e 8 miliardi di dollari dopo, il nuovo software...

Airtificial crolla dell’8% in Borsa dopo aver perso 25 milioni

“Questo è OSCENO!” | Una superstar di 15 anni colpisce 15-Ball...

L’anteprima della terza stagione di “Euphoria” esplosiva rivela il ritorno di...

F1 in Giappone: Oh no, cosa hanno fatto con tutte le...

L’attivista filo-palestinese Nerdeen Kiswani parla dopo lo sventato complotto per l’omicidio...

Le migliori routine idratanti per la cura del corpo estiva in...

Categoria