Converte le foto in 3D World con nuove foto del modello AI

3 Settembre 2025

103

Formazione con pipeline di dati automatizzati

Fa prima del voyager tensidente HIniyanWorld 1.0Rilasciato a luglio. Voyager fa anche parte dell’ecosistema di voyager “Huniyan”, che include Hunuan 3D -2 Huniwanvideo precedentemente coperto per modelli e sintesi video per la generazione di testo-3D.

Per formare Voyager, i ricercatori hanno creato software che analizza automaticamente i video esistenti per elaborare il movimento della telecamera e calcolare la profondità di ciascun frame: determina manualmente il requisito umano per migliaia di ore. Il sistema ha elaborato oltre 100.000 video clip sia dalla registrazione del mondo reale che dai suddetti rendering del motore irreale.

Un’immagine della pipeline di creazione del mondo Voyager.

Credito:

Tensidente

Chiedendo un serio calcolo per eseguire il modello, la risoluzione di 540p richiede una memoria GPU di almeno 60 GB, sebbene il tensente raccomanda 80 GB per risultati migliori. Tensidente Il modello ha rivelato peso The Hug Face and Includ Code che funziona con configurazioni singoli e multi-GPU.

Il modello viene fornito con significativo Limitazione della licenzaGli altri modelli Hanian di tensidente, le licenze vietano l’uso dell’Unione europea, del Regno Unito e della Corea del Sud. Inoltre, la distribuzione commerciale per servire oltre 100 milioni di utenti attivi mensili richiede licenze separate da tens.

Sopra Worldskore Il benchmark, sviluppato dai ricercatori dell’Università di Stanford, Voyager ha ottenuto il punteggio complessivo più alto di 77 77..62 Wonderworld E per 62.15 Cogvideox-I2VIl modello ha acquisito l’oggetto nel controllo degli oggetti (.9 66.12), coerenza in stile (1.3) e qualità soggettiva (.0.1), sebbene sia al secondo posto in controllo della fotocamera (85.95) dietro il 92,98 nel Wonderworld. La generazione mondiale valuta l’approccio della generazione mondiale a più criteri, tra cui la continuità 3D e l’allineamento del materiale.

Sebbene i risultati di questo benchmark auto-segnalato sembrino promettenti, le sfide si affrontano a causa del coinvolgimento dell’ampio stabilimento. Affinché gli sviluppatori richiedano una rapida elaborazione, il sistema supporta le stime parallele tra più GPU utilizzando il sistema Framework ExditFornisce una velocità di elaborazione più rapida di 6,69 volte rispetto alle configurazioni della GPU singolo in esecuzione in otto GPU.

Data l’energia di elaborazione richiesta e le limitazioni per produrre “mondi” lunghi e coerenti, possiamo essere un po ‘di tempo prima di guardare esperienze interattive in tempo reale utilizzando tecniche simili. Tuttavia, come abbiamo visto Google Geni simile al test, probabilmente stiamo assistendo a passi molto precoci in una nuova forma d’arte interattiva e generatore.

Collegamento alla fonte

Converte le foto in 3D World con nuove foto del modello AI

Formazione con pipeline di dati automatizzati

Ultimo post

Trump Turnberry è morto in 28 Open

I prezzi dell’argento scendono mentre i mercati tengono d’occhio la riunione...

Agente NICE: Donald Trump sostiene la ridenominazione della chiave agenzia governativa

I futures del Dow Jones scivolano mentre le tensioni in Iran...

Il produttore del gateway alla fine ha riconosciuto il problema, omettendo...

Le vendite di Resident Evil Requiem spingono Capcom ad aumentare le...

Solheim Cup – Colonna del Capitano di Anna Nordqvist: abiti per...

Il passo mancante tra promozione e profitto

Il cambio USD/JPY si indebolisce mentre lo yen si rafforza in...

Levitt ha informato i giornalisti dopo la cena di caccia

Il cambio USD/CAD scende ai minimi di sei settimane mentre il...

Allarme di emergenza dopo che Kansas City ha visto un mese...

Categoria