Le aziende che hanno valutato modelli ad alto gap negli ultimi due anni si sono trovate ad affrontare uno strano compromesso. La serie Gemma di Google ha avuto prestazioni costantemente elevate, ma la sua licenza proprietaria con restrizioni d’uso e termini che Google può aggiornare in qualsiasi momento ha portato molti team a rivolgersi invece a Mistral o Qwen di Alibaba. Il controllo legale ha aumentato l’attrito. I team di conformità hanno segnalato i casi limite. E per quanto talentuoso sia Gemma 3, "aprire" Un asterisco non è la stessa cosa di aperto.
Gemma 4 Ciò elimina completamente l’attrito. L’ultima famiglia di modelli aperti di Google DeepMind è disponibile all’interno di uno standard Licenza Apache2.0 – gli stessi termini tolleranti usati da Qwen, Mistral, Arcee e dalla maggior parte dell’ecosistema openweight.
Nessuna disposizione speciale, no "Uso dannoso" dettagli che richiedono interpretazione legale, nessuna restrizione sulla ridistribuzione o distribuzione commerciale. Per i team aziendali che aspettano che Google giochi con gli stessi termini di licenza del resto del settore, l’attesa è finita.
Il tempismo è notevole. Mentre alcuni laboratori cinesi di intelligenza artificiale (in particolare gli ultimi modelli Qwen di Alibaba, Qwen3.5 Omni e Qwen 3.6 Plus) hanno iniziato ad allontanarsi dalle versioni completamente aperte per i loro ultimi modelli, Google si sta muovendo nella direzione opposta; Apre la versione Gemma più potente mai vista finora e chiarisce che l’architettura è ispirata al modello commerciale. Gemelli 3 ricerca.
Quattro modelli, due livelli: da Edge a workstation in un’unica famiglia
Gemma 4 è disponibile in quattro diversi modelli organizzati in due livelli di distribuzione. "postazione di lavoro" lo strato include: Modello denso con parametri 31B e un Modello 26B A4B Expert Mix — Supporta l’input sia di testo che di immagini con finestre di contesto token da 256K. "bordo" Lo strato è composto da: E2B E E4BModelli compatti progettati per telefoni, dispositivi incorporati e laptop che supportano testo, immagini e audio con finestre di contesto token da 128K.
La convenzione di denominazione richiede un po’ di disimballaggio. "A" Il prefisso indica "parametri efficaci" — E2B ha 2,3 miliardi di parametri effettivi ma 5,1 miliardi in totale perché ogni livello di decodificazione trasporta la propria piccola tabella di incorporamento tramite una tecnica chiamata Google Posizionamenti per livello (PLE). Queste tabelle sono grandi su disco ma economiche da calcolare, quindi il modello è tecnicamente più pesante quando viene eseguito come 2D.
"UN." A4B in 26B significa: "parametri attivi" — Dei 25,2 miliardi di parametri totali del modello MoE, solo 3,8 miliardi vengono attivati durante l’inferenza; Ciò significa che fornisce un’intelligenza di classe circa 26B con costi di elaborazione paragonabili al modello 4D.
Per i leader IT che determinano i requisiti della GPU, ciò significa flessibilità di implementazione immediata. Il modello MoE può essere eseguito su GPU di livello consumer e dovrebbe apparire rapidamente in strumenti come Ollama e LM Studio. Il modello denso 31D richiede più spazio; per la non quantificazione, considera NVIDIA H100 o RTX 6000 Pro, ma anche Google fa questo Punti di controllo della formazione sulla consapevolezza della quantificazione (QAT). Per preservare la qualità con una precisione inferiore. Su Google Cloud, entrambi i modelli di workstation possono ora essere eseguiti in una configurazione completamente serverless. Corsa sulle nuvole Ritorna a zero quando è inattivo con le GPU NVIDIA RTX Pro 6000.
Il reclamo della MEB: 128 piccoli esperti per risparmiare sui costi di estrazione
Le scelte architetturali all’interno del modello 26B A4B meritano particolare attenzione da parte dei team che valutano l’economia dell’inferenza. Piuttosto che seguire i recenti modelli MEB di grandi dimensioni che utilizzano una manciata di grandi esperti, Google 128 esperti juniorotto per moneta più uno consentono all’esperto condiviso sempre attivo. Il risultato è un modello che confronta in modo competitivo i modelli densi nell’intervallo 27D-31D mentre funziona all’incirca alla velocità di un modello 4D durante l’inferenza.
Questa non è solo una curiosità comparativa; incide direttamente sui costi del servizio. Un modello che offre un ragionamento di classe 27B con un throughput di classe 4B significa meno GPU, latenza inferiore e inferenza per moneta più economica in produzione. Per le organizzazioni che utilizzano assistenti di codifica, pipeline di elaborazione dei documenti o flussi di lavoro di agenzie a più turni, la variante MoE potrebbe essere la scelta più pratica della famiglia.
Entrambi i modelli di workstation sono a Meccanismo di attenzione ibrida Ciò combina l’attenzione locale della finestra scorrevole con l’attenzione globale completa, e l’ultimo strato è sempre globale. Questo design abilita finestre di contesto da 256K mantenendo gestibile il consumo di memoria; Questa è una considerazione importante per i team che elaborano documenti lunghi, codebase o conversazioni tra delegati a più round.
Multimodalità nativa: chiamata di immagini, suoni e funzioni creata da zero
Le generazioni precedenti di modelli aperti spesso trattavano la multimodalità come un’aggiunta. I codificatori di immagini sono fissati alla struttura portante del testo. L’audio richiedeva una linea ASR esterna come Whisper. La chiamata di funzione si basava su una progettazione rapida e sulla speranza che il modello cooperasse. Gemma 4 integra tutte queste funzionalità a livello architetturale.
Tutti e quattro i modelli ingresso video con rapporto d’aspetto variabile Con i budget dei token immagine configurabili, si tratta di un miglioramento significativo rispetto al codec immagine legacy di Gemma 3n, che aveva difficoltà con l’OCR e la comprensione dei documenti. Il nuovo codificatore supporta budget da 70 a 1.120 token per immagine, consentendo agli sviluppatori di scambiare dettagli ed eseguire calcoli a seconda dell’attività.
Budget inferiori favoriscono la valutazione e i sottotitoli; budget più elevati si occupano dell’OCR, dell’analisi dei documenti e dell’analisi visiva dettagliata. L’input multiplo di immagini e video (reso come sequenze di fotogrammi) è supportato in modo nativo, consentendo il ragionamento visivo su più documenti o schermate.
Aggiunta di due modelli edge elaborazione audio locale — Riconoscimento vocale automatico e conversione del parlato in testo tradotto, tutto sul dispositivo. Il vocoder è stato compresso da 681 milioni a 305 milioni di parametri nel Gemma 3n, mentre il frame time è stato ridotto da 160 ms a 40 ms per una trascrizione più reattiva. Per i team che sviluppano applicazioni voice-first che devono mantenere i dati locali (come assistenza sanitaria, servizi sul campo o coinvolgimento multilingue dei clienti), eseguire ASR, traduzione, ragionamento e chiamate di funzioni in un unico modello su un telefono o dispositivo periferico rappresenta una vera semplificazione dell’architettura.
chiamata di funzione Nativo su tutti e quattro i modelli, utilizzando la ricerca di Google FunzioneGemma È stato pubblicato alla fine dell’anno scorso. A differenza degli approcci precedenti che si basavano sul tracciamento delle istruzioni per indirizzare i modelli all’utilizzo di strumenti strutturati, la chiamata di funzione di Gemma 4 viene addestrata sul modello da zero e ottimizzata per flussi di agenti multi-turno con più strumenti. Ciò è evidente nei benchmark intermediati, ma, cosa ancora più importante, riduce il rapido sovraccarico di progettazione in cui i team aziendali in genere investono quando creano broker.
Confronti nel contesto: dove Gemma 4 è atterrato in un’area affollata
I dati comparativi raccontano una chiara storia di miglioramento intergenerazionale. Punteggi modello intensi 31B All’89,2% piace il 2026 (un test molto rigoroso di ragionamento matematico), 80,0% in LiveCodeBench v6e uno colpisce Codeforce ELO di 2.150 – cifre che fino a poco tempo fa avrebbero potuto essere di classe border da modelli speciali. In Vision, MMMU Pro ha raggiunto il 76,9% e MATH-Vision ha raggiunto l’85,6%.
Per fare un confronto, il Gemma 3 27B ha ottenuto il 20,8% in AIME e il 29,1% in LiveCodeBench senza modalità di pensiero.
Il modello MoE segue da vicino: 88,3% su AIME 2026, 77,1% su LiveCodeBench e 82,3% su GPQA Diamond, il punto di riferimento del ragionamento scientifico a livello di laurea. Dato il significativo vantaggio in termini di costi di inferenza dell’architettura MoE, la differenza di prestazioni tra MoE e le varianti dense è modesta.
I modelli Edge hanno prestazioni superiori alla loro classe di peso. E4B raggiunge il 42,5% in AIME 2026 e il 52,0% in LiveCodeBench; Potente per un modello alimentato da una GPU T4. L’ancora più piccolo E2B detiene rispettivamente il 37,5% e il 44,0%. Entrambi, nonostante siano una frazione delle dimensioni, superano significativamente (un gioco da ragazzi) il Gemma 3 27B nella maggior parte dei benchmark grazie alla sua capacità di ragionamento integrata.
Queste cifre devono essere lette rispetto a un ambiente a peso aperto sempre più competitivo. Qwen 3.5, GLM-5 e Kimi K2.5 competono tutti in modo aggressivo in questo intervallo di parametri e il campo si sta muovendo rapidamente. Ciò che distingue Gemma 4 è più una combinazione che un singolo benchmark: ragionamento potente, multimodalità nativa tra testo, immagini e audio, chiamata di funzioni, contesto 256K e una licenza veramente permissiva, il tutto in un’unica famiglia di modelli con opzioni di implementazione da dispositivi edge ad applicazioni serverless nel cloud.
A cosa devono prestare attenzione i team aziendali in seguito
Google sta rilasciando sia modelli base pre-addestrati che varianti ottimizzate per le istruzioni; Questo è importante per le organizzazioni che intendono ottimizzare domini specifici. I modelli base Gemma hanno storicamente fornito solide basi per la formazione specializzata, e la licenza Apache 2.0 ora elimina ogni incertezza sulla possibilità di implementare commercialmente i derivati ottimizzati.
Vale la pena perseguire l’opzione di distribuzione serverless tramite Cloud Run basato su GPU per i team che necessitano di una capacità di inferenza scalabile fino a zero. Pagare solo per il calcolo effettivo, anziché mantenere sempre aperte le istanze GPU durante l’inferenza, potrebbe cambiare in modo significativo l’economia dell’implementazione di modelli aperti in produzione, in particolare per strumenti interni e applicazioni a traffico ridotto.
Google ha lasciato intendere che questa potrebbe non essere l’intera famiglia Gemma 4 e che probabilmente arriveranno modelli di dimensioni aggiuntive. Ma la combinazione oggi disponibile – modelli di ragionamento di classe workstation e modelli multimodali di classe edge, tutti sotto Apache 2.0 e presi dallo studio Gemini 3 – rappresenta la versione più completa di modelli aperti che Google ha da offrire. Per i team aziendali che si aspettano che i modelli aperti di Google competano sia sui termini di licenza che sulle prestazioni, la valutazione può finalmente iniziare senza ricorrere prima alla legge.















