Le aziende possono ora sfruttare la potenza di un modello linguistico di grandi dimensioni vicino a quello dell’innovativo Gemini 3 Pro di Google, ma a una frazione del costo e più velocemente. Gemini 3 Flash appena rilasciato.
Il modello si unisce ai flagship Gemini 3 Pro, Gemini 3 Deep Think e Gemini Agent, annunciati e lanciati il mese scorso.
Ora disponibile in anteprima in Gemini Enterprise, Google Antigravity, Gemini CLI, AI Studio e Vertex AI, Gemini 3 Flash elabora le informazioni quasi in tempo reale e aiuta a creare applicazioni per agenzie veloci e reattive.
azienda ha detto in un post sul blog Gemini 3 Flash è ottimizzato per flussi di lavoro ad alta frequenza che richiedono velocità senza sacrificare la qualità, basandosi sulla serie di modelli che gli sviluppatori e le aziende già apprezzano.
Il modello è anche quello predefinito per la modalità AI nella Ricerca Google e nell’app Gemini.
Tulsee Doshi, direttore senior della gestione del prodotto per il team Gemini, ha dichiarato: post di blog separato il modello “dimostra che la velocità e la scalabilità non devono necessariamente andare a scapito dell’intelligenza”.
“Gemini 3 Flash è progettato per lo sviluppo iterativo e offre le prestazioni di codifica di livello Pro di Gemini 3 con bassa latenza, in grado di ragionare rapidamente e risolvere attività in flussi di lavoro ad alta frequenza”, ha affermato Doshi. “La codifica dell’agenzia raggiunge un equilibrio ideale tra sistemi pronti per la produzione e applicazioni interattive reattive.”
L’adozione tempestiva da parte di aziende specializzate dimostra l’affidabilità del modello nelle aree a rischio. Harvey, una piattaforma di intelligenza artificiale per studi legali, segnala un aumento del 7% nel ragionamento sul suo “BigLaw Bench” integrato, mentre Resemble AI ha scoperto che Gemini 3 Flash può elaborare dati forensi complessi per il rilevamento di deepfake 4 volte più velocemente di Gemini 2.5 Pro. Questi non sono solo guadagni di velocità; Consentono flussi di lavoro “quasi in tempo reale” che prima erano impossibili.
Più efficiente a un costo inferiore
Gli sviluppatori di intelligenza artificiale aziendale stanno diventando sempre più consapevoli del costo dell’esecuzione di modelli di intelligenza artificiale, soprattutto perché cercano di convincere le parti interessate a stanziare più budget per i flussi di lavoro degli agenti che funzionano su modelli costosi. Le organizzazioni si sono spostate verso modelli più piccoli o distillati, concentrandosi su modelli aperti o altre tecniche di ricerca e incentivi per aiutare a gestire i costi gonfiati dell’IA.
Per le aziende, la più grande proposta di valore di Gemini 3 Flash è che offre funzionalità multimodali avanzate come analisi video complesse ed estrazione di dati alla pari delle sue controparti Gemini più grandi, ma è molto più veloce ed economica.
Sebbene i materiali interni di Google promuovano un aumento di velocità 3 volte superiore rispetto alla serie 2.5 Pro, dati indipendenti società di benchmarking Artificial Analysis Aggiunge uno strato cruciale di sfumature.
Nei test pre-release di quest’ultimo, Gemini 3 Flash Preview ha registrato un throughput grezzo di 218 token di emissione al secondo. Ciò lo rende più lento del 22% rispetto al precedente Gemini 2.5 Flash “non ragionante”, ma è comunque significativamente più veloce dei rivali come GPT-5.1 high di OpenAI (125 tonnellate/s) e DeepSeek V3.2 Reasoning (30 tonnellate/s).
Ancora più importante, l’analisi artificiale ha incoronato Gemini 3 Flash come nuovo leader nel benchmark delle informazioni di AA-Omniscience, ottenendo la massima precisione delle informazioni tra tutti i modelli testati fino ad oggi. Ma questa intelligenza comporta anche una “tassa sul giudizio”: il modello più che raddoppia l’utilizzo dei token rispetto alla serie 2.5 Flash quando si tratta di indici complessi.
Questa elevata concentrazione di token è controbilanciata dai prezzi aggressivi di Google: quando si accede tramite l’API Gemini, Gemini 3 Flash costa $ 0,50 per 1 milione di token di ingresso rispetto a $ 1,25/1 milione di token di ingresso per Gemini 2.5 Pro e $ 3/1 milione di token di uscita rispetto a $ 10/1 milione di token di uscita per Gemini 2.5 Pro. Ciò consente a Gemini 3 Flash di rivendicare il titolo di modello più conveniente in termini di livello di intelligenza, nonostante sia uno dei modelli più “loquaci” in termini di volume di token grezzi. Ecco come si confronta con le offerte LLM concorrenti:
|
Modello |
Accedi (/1M) |
Uscita (/1M) |
Costo totale |
Fonte |
|
Qwen3Turbo |
$ 0,05 |
$ 0,20 |
$ 0,25 |
|
|
Grok 4.1 Veloce (ragionamento) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
Grok 4.1 Veloce (non ragionante) |
$ 0,20 |
$ 0,50 |
$ 0,70 |
|
|
chat di ricerca approfondita (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
ragionatore di ricerca approfondito (V3.2-Exp) |
$ 0,28 |
$ 0,42 |
$ 0,70 |
|
|
Qwen3 Plus |
$ 0,40 |
$ 1,20 |
$ 1,60 |
|
|
ERNI 5.0 |
$ 0,85 |
$ 3,40 |
$ 4,25 |
|
|
Anteprima Flash di Gemini 3 |
$ 0,50 |
$ 3,00 |
$ 3,50 |
|
|
ClaudeHaiku4.5 |
$ 1,00 |
$ 5,00 |
$ 6,00 |
|
|
Qwen-Max |
$ 1,60 |
$ 6,40 |
$ 8,00 |
|
|
Gemini 3 Pro (≤200.000) |
$ 2,00 |
$ 12,00 |
$ 14,00 |
|
|
GPT-5.2 |
$ 1,75 |
$ 14,00 |
$ 15,75 |
|
|
Claude Sonetto 4.5 |
$ 3,00 |
$ 15,00 |
$ 18,00 |
|
|
Gemini 3 Pro (>200K) |
$ 4,00 |
$ 18,00 |
$ 22,00 |
|
|
Chiudi Esegui 4.5 |
$ 5,00 |
$ 25,00 |
$ 30,00 |
|
|
GPT-5.2Pro |
$ 21,00 |
$ 168,00 |
$ 189,00 |
Più modi per risparmiare
Ma gli sviluppatori e gli utenti aziendali possono ridurre ulteriormente i costi eliminando la latenza che spesso si verifica nella maggior parte dei modelli principali e aumentando l’utilizzo dei token. Google ha affermato che il modello può “cambiare il modo in cui pensa”, quindi utilizza più token provenienti da suggerimenti rapidi per pensare di più e quindi svolgere compiti più complessi. La società ha dichiarato che Gemini 3 Flash utilizza il 30% in meno di token rispetto a Gemini 2.5 Pro.
Per bilanciare questo nuovo potere di ragionamento con i rigorosi requisiti di latenza aziendale, Google ha introdotto un parametro “Livello di pensiero”. Gli sviluppatori possono alternare tra “Basso” per ridurre al minimo i costi e la latenza su semplici attività di chat e “Alto” per massimizzare la profondità di ragionamento su complesse operazioni di estrazione dei dati. Questo controllo granulare consente ai team di creare applicazioni a “velocità variabile” che consumano costosi “think token” solo quando un problema richiede veramente una formazione di livello PhD.
La storia economica va oltre i semplici prezzi simbolici. Con l’inclusione della cache del contesto come standard, le organizzazioni che elaborano set di dati statici molto grandi, come intere librerie legali o repository di codebase, possono vedere una riduzione del 90% nel costo delle query ripetute. Se combinato con lo sconto del 50% dell’API Batch, il costo totale di proprietà di un agente basato su Gemini scende significativamente al di sotto della soglia dei modelli lead concorrenti
“Gemini 3 Flash offre prestazioni eccezionali nelle attività di codifica e mediazione, oltre a un prezzo inferiore, consentendo ai team di distribuire i costi di ragionamenti complessi senza incontrare ostacoli nei processi ad alto volume”, ha affermato Google.
Offrendo un modello che offre potenti prestazioni multimodali a un prezzo più conveniente, Google suggerisce alle aziende che desiderano controllare la propria spesa per l’intelligenza artificiale di scegliere il proprio modello, in particolare Gemini 3 Flash.
Forte prestazione di riferimento
Quindi, come si comporta Gemini 3 rispetto ad altri modelli in termini di prestazioni Flash?
Doshi ha affermato che il modello ha ottenuto un punteggio del 78% nel test benchmark SWE-Bench Verified per gli agenti di codifica, superando sia la precedente famiglia Gemini 2.5 che il nuovo Gemini 3 Pro stesso!
Per le aziende, ciò significa che la manutenzione del software e le attività di correzione dei bug ad alto volume possono ora essere scaricate su un modello che è allo stesso tempo più veloce ed economico rispetto ai precedenti modelli di punta senza un degrado della qualità del codice.
Il modello ha ottenuto ottimi risultati anche in altri benchmark, segnando l’81,2% nel benchmark MMMU Pro, paragonabile al Gemini 3 Pro.
Mentre la maggior parte dei modelli di tipo Flash sono chiaramente ottimizzati per attività brevi e veloci come la generazione di codice, Google afferma che le “prestazioni di Gemini 3 Flash in termini di ragionamento, strumenti e capacità multimodali sono ideali per gli sviluppatori che desiderano eseguire analisi video più complesse, estrazione di dati e domande e risposte visive, il che significa che può abilitare applicazioni più intelligenti come assistenti di gioco o esperimenti di test A/B che richiedono sia risposte rapide che ragionamenti profondi”.
Prime impressioni dai primi utenti
Finora, i primi utenti sono rimasti molto colpiti dal modello, in particolare dalle sue prestazioni di riferimento.
Cosa significa per l’utilizzo dell’IA aziendale?
Con Gemini 3 Flash che ora funge da motore predefinito nella Ricerca Google e nell’app Gemini, stiamo assistendo a: "lampeggiante" intelligence di frontiera. Facendo del ragionamento di livello professionale il nuovo fondamento, Google sta preparando una trappola per gli operatori storici più lenti.
L’integrazione in piattaforme come Google Antigravity significa che Google non vende solo un modello; vende l’infrastruttura dell’impresa autonoma.
Mentre gli sviluppatori possono lavorare con velocità 3 volte più elevate e uno sconto del 90% sulla memorizzazione nella cache dei contenuti, "Gemelli innanzitutto" La strategia diventa un argomento finanziario convincente. Nella corsa ad alta velocità per il dominio dell’IA, Gemini 3 Flash potrebbe essere il modello che finalmente si trasforma "codifica delle vibrazioni" Da un hobby sperimentale a una realtà pronta per la produzione.















