Home Politica Gemini 3 Flash ha costi e latenza inferiori; Una combinazione potente per...

Politica

Gemini 3 Flash ha costi e latenza inferiori; Una combinazione potente per le imprese

17 Dicembre 2025

Le aziende possono ora sfruttare la potenza di un modello linguistico di grandi dimensioni vicino a quello dell’innovativo Gemini 3 Pro di Google, ma a una frazione del costo e più velocemente. Gemini 3 Flash appena rilasciato.

Il modello si unisce ai flagship Gemini 3 Pro, Gemini 3 Deep Think e Gemini Agent, annunciati e lanciati il mese scorso.

Ora disponibile in anteprima in Gemini Enterprise, Google Antigravity, Gemini CLI, AI Studio e Vertex AI, Gemini 3 Flash elabora le informazioni quasi in tempo reale e aiuta a creare applicazioni per agenzie veloci e reattive.

azienda ha detto in un post sul blog Gemini 3 Flash è ottimizzato per flussi di lavoro ad alta frequenza che richiedono velocità senza sacrificare la qualità, basandosi sulla serie di modelli che gli sviluppatori e le aziende già apprezzano.

Il modello è anche quello predefinito per la modalità AI nella Ricerca Google e nell’app Gemini.

Tulsee Doshi, direttore senior della gestione del prodotto per il team Gemini, ha dichiarato: post di blog separato il modello “dimostra che la velocità e la scalabilità non devono necessariamente andare a scapito dell’intelligenza”.

“Gemini 3 Flash è progettato per lo sviluppo iterativo e offre le prestazioni di codifica di livello Pro di Gemini 3 con bassa latenza, in grado di ragionare rapidamente e risolvere attività in flussi di lavoro ad alta frequenza”, ha affermato Doshi. “La codifica dell’agenzia raggiunge un equilibrio ideale tra sistemi pronti per la produzione e applicazioni interattive reattive.”

L’adozione tempestiva da parte di aziende specializzate dimostra l’affidabilità del modello nelle aree a rischio. Harvey, una piattaforma di intelligenza artificiale per studi legali, segnala un aumento del 7% nel ragionamento sul suo “BigLaw Bench” integrato, mentre Resemble AI ha scoperto che Gemini 3 Flash può elaborare dati forensi complessi per il rilevamento di deepfake 4 volte più velocemente di Gemini 2.5 Pro. Questi non sono solo guadagni di velocità; Consentono flussi di lavoro “quasi in tempo reale” che prima erano impossibili.

Più efficiente a un costo inferiore

Gli sviluppatori di intelligenza artificiale aziendale stanno diventando sempre più consapevoli del costo dell’esecuzione di modelli di intelligenza artificiale, soprattutto perché cercano di convincere le parti interessate a stanziare più budget per i flussi di lavoro degli agenti che funzionano su modelli costosi. Le organizzazioni si sono spostate verso modelli più piccoli o distillati, concentrandosi su modelli aperti o altre tecniche di ricerca e incentivi per aiutare a gestire i costi gonfiati dell’IA.

Per le aziende, la più grande proposta di valore di Gemini 3 Flash è che offre funzionalità multimodali avanzate come analisi video complesse ed estrazione di dati alla pari delle sue controparti Gemini più grandi, ma è molto più veloce ed economica.

Sebbene i materiali interni di Google promuovano un aumento di velocità 3 volte superiore rispetto alla serie 2.5 Pro, dati indipendenti società di benchmarking Artificial Analysis Aggiunge uno strato cruciale di sfumature.

Nei test pre-release di quest’ultimo, Gemini 3 Flash Preview ha registrato un throughput grezzo di 218 token di emissione al secondo. Ciò lo rende più lento del 22% rispetto al precedente Gemini 2.5 Flash “non ragionante”, ma è comunque significativamente più veloce dei rivali come GPT-5.1 high di OpenAI (125 tonnellate/s) e DeepSeek V3.2 Reasoning (30 tonnellate/s).

Ancora più importante, l’analisi artificiale ha incoronato Gemini 3 Flash come nuovo leader nel benchmark delle informazioni di AA-Omniscience, ottenendo la massima precisione delle informazioni tra tutti i modelli testati fino ad oggi. Ma questa intelligenza comporta anche una “tassa sul giudizio”: il modello più che raddoppia l’utilizzo dei token rispetto alla serie 2.5 Flash quando si tratta di indici complessi.

Questa elevata concentrazione di token è controbilanciata dai prezzi aggressivi di Google: quando si accede tramite l’API Gemini, Gemini 3 Flash costa $ 0,50 per 1 milione di token di ingresso rispetto a $ 1,25/1 milione di token di ingresso per Gemini 2.5 Pro e $ 3/1 milione di token di uscita rispetto a $ 10/1 milione di token di uscita per Gemini 2.5 Pro. Ciò consente a Gemini 3 Flash di rivendicare il titolo di modello più conveniente in termini di livello di intelligenza, nonostante sia uno dei modelli più “loquaci” in termini di volume di token grezzi. Ecco come si confronta con le offerte LLM concorrenti:

Modello	Accedi (/1M)	Uscita (/1M)	Costo totale	Fonte
Qwen3Turbo	$ 0,05	$ 0,20	$ 0,25	AlibabaNuvola
Grok 4.1 Veloce (ragionamento)	$ 0,20	$ 0,50	$ 0,70	xAI
Grok 4.1 Veloce (non ragionante)	$ 0,20	$ 0,50	$ 0,70	xAI
chat di ricerca approfondita (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	Ricerca approfondita
ragionatore di ricerca approfondito (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	Ricerca approfondita
Qwen3 Plus	$ 0,40	$ 1,20	$ 1,60	AlibabaNuvola
ERNI 5.0	$ 0,85	$ 3,40	$ 4,25	qianfan
Anteprima Flash di Gemini 3	$ 0,50	$ 3,00	$ 3,50	Google
ClaudeHaiku4.5	$ 1,00	$ 5,00	$ 6,00	antropico
Qwen-Max	$ 1,60	$ 6,40	$ 8,00	AlibabaNuvola
Gemini 3 Pro (≤200.000)	$ 2,00	$ 12,00	$ 14,00	Google
GPT-5.2	$ 1,75	$ 14,00	$ 15,75	OpenAI
Claude Sonetto 4.5	$ 3,00	$ 15,00	$ 18,00	antropico
Gemini 3 Pro (>200K)	$ 4,00	$ 18,00	$ 22,00	Google
Chiudi Esegui 4.5	$ 5,00	$ 25,00	$ 30,00	antropico
GPT-5.2Pro	$ 21,00	$ 168,00	$ 189,00	OpenAI

Più modi per risparmiare

Ma gli sviluppatori e gli utenti aziendali possono ridurre ulteriormente i costi eliminando la latenza che spesso si verifica nella maggior parte dei modelli principali e aumentando l’utilizzo dei token. Google ha affermato che il modello può “cambiare il modo in cui pensa”, quindi utilizza più token provenienti da suggerimenti rapidi per pensare di più e quindi svolgere compiti più complessi. La società ha dichiarato che Gemini 3 Flash utilizza il 30% in meno di token rispetto a Gemini 2.5 Pro.

Per bilanciare questo nuovo potere di ragionamento con i rigorosi requisiti di latenza aziendale, Google ha introdotto un parametro “Livello di pensiero”. Gli sviluppatori possono alternare tra “Basso” per ridurre al minimo i costi e la latenza su semplici attività di chat e “Alto” per massimizzare la profondità di ragionamento su complesse operazioni di estrazione dei dati. Questo controllo granulare consente ai team di creare applicazioni a “velocità variabile” che consumano costosi “think token” solo quando un problema richiede veramente una formazione di livello PhD.

La storia economica va oltre i semplici prezzi simbolici. Con l’inclusione della cache del contesto come standard, le organizzazioni che elaborano set di dati statici molto grandi, come intere librerie legali o repository di codebase, possono vedere una riduzione del 90% nel costo delle query ripetute. Se combinato con lo sconto del 50% dell’API Batch, il costo totale di proprietà di un agente basato su Gemini scende significativamente al di sotto della soglia dei modelli lead concorrenti

“Gemini 3 Flash offre prestazioni eccezionali nelle attività di codifica e mediazione, oltre a un prezzo inferiore, consentendo ai team di distribuire i costi di ragionamenti complessi senza incontrare ostacoli nei processi ad alto volume”, ha affermato Google.

Offrendo un modello che offre potenti prestazioni multimodali a un prezzo più conveniente, Google suggerisce alle aziende che desiderano controllare la propria spesa per l’intelligenza artificiale di scegliere il proprio modello, in particolare Gemini 3 Flash.

Forte prestazione di riferimento

Quindi, come si comporta Gemini 3 rispetto ad altri modelli in termini di prestazioni Flash?

Doshi ha affermato che il modello ha ottenuto un punteggio del 78% nel test benchmark SWE-Bench Verified per gli agenti di codifica, superando sia la precedente famiglia Gemini 2.5 che il nuovo Gemini 3 Pro stesso!

Per le aziende, ciò significa che la manutenzione del software e le attività di correzione dei bug ad alto volume possono ora essere scaricate su un modello che è allo stesso tempo più veloce ed economico rispetto ai precedenti modelli di punta senza un degrado della qualità del codice.

Il modello ha ottenuto ottimi risultati anche in altri benchmark, segnando l’81,2% nel benchmark MMMU Pro, paragonabile al Gemini 3 Pro.

Mentre la maggior parte dei modelli di tipo Flash sono chiaramente ottimizzati per attività brevi e veloci come la generazione di codice, Google afferma che le “prestazioni di Gemini 3 Flash in termini di ragionamento, strumenti e capacità multimodali sono ideali per gli sviluppatori che desiderano eseguire analisi video più complesse, estrazione di dati e domande e risposte visive, il che significa che può abilitare applicazioni più intelligenti come assistenti di gioco o esperimenti di test A/B che richiedono sia risposte rapide che ragionamenti profondi”.

Prime impressioni dai primi utenti

Finora, i primi utenti sono rimasti molto colpiti dal modello, in particolare dalle sue prestazioni di riferimento.

Cosa significa per l’utilizzo dell’IA aziendale?

Con Gemini 3 Flash che ora funge da motore predefinito nella Ricerca Google e nell’app Gemini, stiamo assistendo a: "lampeggiante" intelligence di frontiera. Facendo del ragionamento di livello professionale il nuovo fondamento, Google sta preparando una trappola per gli operatori storici più lenti.

L’integrazione in piattaforme come Google Antigravity significa che Google non vende solo un modello; vende l’infrastruttura dell’impresa autonoma.

Mentre gli sviluppatori possono lavorare con velocità 3 volte più elevate e uno sconto del 90% sulla memorizzazione nella cache dei contenuti, "Gemelli innanzitutto" La strategia diventa un argomento finanziario convincente. Nella corsa ad alta velocità per il dominio dell’IA, Gemini 3 Flash potrebbe essere il modello che finalmente si trasforma "codifica delle vibrazioni" Da un hobby sperimentale a una realtà pronta per la produzione.

Collegamento alla fonte

Gemini 3 Flash ha costi e latenza inferiori; Una combinazione potente per le imprese

Più efficiente a un costo inferiore

Più modi per risparmiare

Forte prestazione di riferimento

Prime impressioni dai primi utenti

Cosa significa per l’utilizzo dell’IA aziendale?

Ultimo post

È morto all’età di 24 anni Dylan Carter di The Voice

I prezzi dell’argento scendono mentre i mercati tengono d’occhio la riunione...

Agente NICE: Donald Trump sostiene la ridenominazione della chiave agenzia governativa

L’Iran è pronto ad allentare lo Stretto di Hormuz, ma rifiuta...

“Anna Navarro di The View spera che la sparatoria del WHCD...

I futures del Dow Jones scivolano mentre le tensioni in Iran...

Il produttore del gateway alla fine ha riconosciuto il problema, omettendo...

Le vendite di Resident Evil Requiem spingono Capcom ad aumentare le...

Solheim Cup – Colonna del Capitano di Anna Nordqvist: abiti per...

Molte scuole sono state chiuse a causa della forte pioggia durante...

Il passo mancante tra promozione e profitto

Jimmy Kimmel potrebbe essere cancellato? Perché Melania Trump lo vuole licenziato...

Categoria