Come previsto dopo giorni di fughe di notizie e voci online, Google Presentato I Spy 3.1L’ultimo modello di rendering video AI apporta una serie di aggiornamenti creativi e tecnici volti a migliorare il controllo narrativo, l’integrazione audio e il realismo nei video generati dall’intelligenza artificiale.

Gli aggiornamenti ampliano le possibilità per hobbisti e creatori che utilizzano l’app di creazione AI online di Google. FluireIl rilascio segnala inoltre una crescente opportunità per organizzazioni, sviluppatori e team creativi alla ricerca di strumenti video scalabili e personalizzabili.

La qualità è più elevata, la fisica è migliore, il prezzo è lo stesso di prima e le funzionalità di controllo e modifica sono più robuste e diversificate.

Mio primi test Dimostrò che si trattava di un modello potente e ad alte prestazioni che piacque immediatamente a ogni generazione. Ma il look è più cinematografico, appariscente e un po’ più elegante. "artificiale" Più di rivali come il nuovo Sora 2 di OpenAI, rilasciato alla fine del mese scorso; questo può essere o meno ciò che un particolare utente sta cercando (Sora, palmare e "sincero" video di stile).

Controllo esteso su narrativa e audio

Veo 3.1 si basa sul suo predecessore, Veo 3 (Rilasciato maggio 2025) con supporto per dialoghi migliorati, suoni ambientali e altri effetti sonori.

Il rendering audio nativo è ora disponibile in Flow in “Frames to Video”, “Materials to Video” ed “Espandi," Ciò consente agli utenti di: convertire immagini fisse in video; utilizzare elementi, personaggi e oggetti da più immagini in un unico video; e crea clip più lunghi dei primi 8 secondi, più lunghi di 30 secondi o anche più lunghi di 1+ secondi continuando dall’ultimo fotogramma della clip precedente.

In precedenza, dovevi aggiungere l’audio manualmente dopo aver utilizzato queste funzionalità.

Questa aggiunta offre agli utenti un maggiore controllo su tono, emozioni e narrazione, funzionalità che in precedenza richiedevano un lavoro di post-produzione.

In contesti aziendali, questo livello di controllo può offrire un modo integrato per creare contenuti didattici, video di marketing o esperienze digitali con audio e immagini sincronizzati, riducendo la necessità di linee audio separate.

Google ha osservato: un post sul blog che gli aggiornamenti riflettono il feedback degli utenti che richiede un controllo artistico più profondo e un supporto audio migliorato. Gallegos sottolinea l’importanza di modificare e apportare miglioramenti direttamente in Flow senza dover rielaborare le scene da zero.

Input e funzionalità di modifica più ricchi

Con Veo 3.1, Google aggiunge il supporto per più tipi di input e un controllo più granulare sull’output generato. Il modello accetta istruzioni di testo, immagini e clip video come input e supporta anche:

  • Immagini di riferimento (fino a tre) per guidare l’aspetto e lo stile nell’output finale

  • Interpolazione del primo e dell’ultimo frame per creare scene senza interruzioni tra endpoint fissi

  • estensione scenica che continua l’azione o il movimento di un video oltre la sua durata attuale

Questi strumenti mirano a fornire agli utenti aziendali un modo per ottimizzare l’aspetto dei propri contenuti; questo è vantaggioso per la coerenza del marchio o per l’aderenza ai brief creativi.

Vengono inoltre introdotte funzionalità aggiuntive come “Inserisci” (aggiunta di oggetti alle scene) e “Rimuovi” (eliminazione di elementi o personaggi), ma non tutte sono immediatamente disponibili tramite l’API Gemini.

Distribuzione su piattaforme

È possibile accedere a Veo 3.1 tramite molti dei servizi AI esistenti di Google:

  • FluireL’interfaccia di Google per la realizzazione di filmati basata sull’intelligenza artificiale

  • API GemelliSi rivolge agli sviluppatori che aggiungono funzionalità video alle app

  • IA del verticel’integrazione aziendale supporterà presto la “Stage Extension” di Veo e altre funzionalità chiave

La disponibilità attraverso queste piattaforme consente ai clienti aziendali di scegliere l’ambiente giusto (basato su GUI o programmatico) in base ai propri team e flussi di lavoro.

Prezzi e accesso

Il modello Veo 3.1 è attualmente anteprima ed è disponibile solo su: livello a pagamento API Gemelli. La struttura dei costi è la stessa di Veo 3, i modelli video AI della generazione precedente di Google.

  • modello standard: $ 0,40 al secondo di video

  • modello veloce: $ 0,15 al secondo

Non esiste un livello gratuito e gli utenti pagano solo se un video viene creato correttamente. Questo modello è coerente con le versioni precedenti di Veo e fornisce prezzi prevedibili per i team aziendali attenti al budget.

Specifiche tecniche e controllo dell’output

Il video di Veo 3.1 debutta su: Risoluzione 720p o 1080pcon Frequenza fotogrammi 24 fps.

Le opzioni di durata includono: 4, 6 o 8 secondi da un messaggio di testo o immagini caricate, video al massimo 148 secondi (più di 2 minuti e mezzo!) Quando si utilizza la funzione “Espandi”.

La nuova funzionalità include anche un controllo più rigoroso su argomenti e ambienti. Ad esempio, le aziende possono caricare un’immagine di prodotto o un riferimento visivo e Veo 3.1 creerà scene che ne manterranno l’aspetto e gli spunti stilistici in tutto il video. Ciò può semplificare le pipeline creative per i team di vendita al dettaglio, pubblicità e produzione di contenuti virtuali.

Prime reazioni

La più ampia comunità di creatori e sviluppatori ha risposto al rilascio di Veo 3.1 con un mix di ottimismo e dure critiche, soprattutto se paragonato a modelli concorrenti come Sora 2 di OpenAI.

Matt Shumer Il fondatore dell’intelligenza artificiale e uno dei primi ad adottare Otherside AI/Hyperwrite ha descritto la sua reazione iniziale come “delusione”, sottolineando che Veo 3.1 è “notevolmente peggiore di Sora 2” e anche “leggermente più costoso”.

Ma ha riconosciuto che gli strumenti di Google come il supporto di riferimento e l’estensione della scena sono stati un aspetto positivo del rilascio.

Travis DavidArtista digitale 3D e creatore di contenuti AI. Pur notando miglioramenti nella qualità audio, in particolare negli effetti sonori e nei dialoghi, ha anche espresso preoccupazione per le restanti limitazioni del sistema.

Questi includono la mancanza di supporto vocale personalizzato, l’impossibilità di selezionare direttamente le voci generate e il limite continuo alle generazioni di 8 secondi nonostante alcune affermazioni pubbliche di risultati più lunghi.

Davids ha anche notato che la coerenza del personaggio nonostante il cambiamento degli angoli di ripresa richiede ancora un’attenta direzione, mentre altri modelli come Sora 2 lo gestiscono in modo più automatico. Ha messo in dubbio la mancanza di una risoluzione 1080p per gli utenti di livelli a pagamento come Flow Pro e ha espresso dubbi sulla parità di funzionalità.

Dal lato più positivo, @kimmonismo, Uno scrittore di newsletter sull’intelligenza artificiale ha osservato che “Veo 3.1 è fantastico”, ma ha comunque concluso che il modello finale di OpenAI era nel complesso preferibile.

Collettivamente, queste prime impressioni mostrano che le aspettative stanno cambiando, con Veo 3.1 che introduce miglioramenti significativi degli strumenti e nuove funzionalità di controllo creativo, mentre i concorrenti alzano il livello sia in termini di qualità che di usabilità.

Adozione e ridimensionamento

Dal lancio di Flow cinque mesi fa, Google afferma: 275 milioni di video Creato in vari modelli Veo.

La velocità di adozione mostra un grande interesse non solo da parte dei singoli individui, ma anche da parte di sviluppatori e aziende che sperimentano la creazione automatizzata di contenuti.

Thomas Iljic, Direttore della gestione del prodotto presso Google Labs, sottolinea che il rilascio di Veo 3.1 avvicina le funzionalità al modo in cui i registi umani pianificano e girano. Questi includono la composizione della scena, la continuità da un’inquadratura all’altra e il suono coordinato; Queste sono tutte aree che le organizzazioni cercano sempre più di automatizzare o semplificare.

Sicurezza e uso responsabile dell’IA

I video creati con Veo 3.1 sono contrassegnati utilizzando le filigrane di Google SynthID Tecnologia che incorpora un identificatore non rilevabile per indicare che il contenuto è stato creato dall’intelligenza artificiale.

Google implementa filtri di sicurezza e moderazione sulle sue API per ridurre al minimo i rischi relativi alla privacy e al copyright. Il contenuto creato viene archiviato temporaneamente ed eliminato dopo due giorni a meno che non venga scaricato.

Per gli sviluppatori e le organizzazioni, queste funzionalità forniscono garanzia di origine e conformità, che è fondamentale nei settori regolamentati o sensibili al marchio.

Dove si trova Veo 3.1 in un campo affollato di modelli video AI

Il Veo 3.1 non è solo un’iterazione dei modelli precedenti; Rappresenta una più profonda integrazione di input multimodali, controllo dello storytelling e strumenti a livello aziendale. Mentre i professionisti creativi possono vedere vantaggi immediati nell’ottimizzazione dei flussi di lavoro e nella fedeltà, le aziende che esplorano l’automazione nell’istruzione, nella pubblicità o nelle esperienze virtuali possono trovare un valore ancora maggiore nella componibilità del modello e nel supporto API.

I primi feedback degli utenti evidenziano che, sebbene Veo 3.1 offra strumenti preziosi, le aspettative in termini di realismo, controllo audio e durata della generazione stanno cambiando rapidamente. Mentre Google espande la sua portata attraverso Vertex AI e continua a migliorare Veo, la sua posizione competitiva nella creazione di video aziendali dipenderà dalla rapidità con cui verranno affrontati questi punti critici degli utenti.

Collegamento alla fonte