Formazione con pipeline di dati automatizzati

Fa prima del voyager tensidente HIniyanWorld 1.0Rilasciato a luglio. Voyager fa anche parte dell’ecosistema di voyager “Huniyan”, che include Hunuan 3D -2 Huniwanvideo precedentemente coperto per modelli e sintesi video per la generazione di testo-3D.

Per formare Voyager, i ricercatori hanno creato software che analizza automaticamente i video esistenti per elaborare il movimento della telecamera e calcolare la profondità di ciascun frame: determina manualmente il requisito umano per migliaia di ore. Il sistema ha elaborato oltre 100.000 video clip sia dalla registrazione del mondo reale che dai suddetti rendering del motore irreale.

Un’immagine della pipeline di creazione del mondo Voyager.


Credito:

Tensidente


Chiedendo un serio calcolo per eseguire il modello, la risoluzione di 540p richiede una memoria GPU di almeno 60 GB, sebbene il tensente raccomanda 80 GB per risultati migliori. Tensidente Il modello ha rivelato peso The Hug Face and Includ Code che funziona con configurazioni singoli e multi-GPU.

Il modello viene fornito con significativo Limitazione della licenzaGli altri modelli Hanian di tensidente, le licenze vietano l’uso dell’Unione europea, del Regno Unito e della Corea del Sud. Inoltre, la distribuzione commerciale per servire oltre 100 milioni di utenti attivi mensili richiede licenze separate da tens.

Sopra Worldskore Il benchmark, sviluppato dai ricercatori dell’Università di Stanford, Voyager ha ottenuto il punteggio complessivo più alto di 77 77..62 Wonderworld E per 62.15 Cogvideox-I2VIl modello ha acquisito l’oggetto nel controllo degli oggetti (.9 66.12), coerenza in stile (1.3) e qualità soggettiva (.0.1), sebbene sia al secondo posto in controllo della fotocamera (85.95) dietro il 92,98 nel Wonderworld. La generazione mondiale valuta l’approccio della generazione mondiale a più criteri, tra cui la continuità 3D e l’allineamento del materiale.

Sebbene i risultati di questo benchmark auto-segnalato sembrino promettenti, le sfide si affrontano a causa del coinvolgimento dell’ampio stabilimento. Affinché gli sviluppatori richiedano una rapida elaborazione, il sistema supporta le stime parallele tra più GPU utilizzando il sistema Framework ExditFornisce una velocità di elaborazione più rapida di 6,69 volte rispetto alle configurazioni della GPU singolo in esecuzione in otto GPU.

Data l’energia di elaborazione richiesta e le limitazioni per produrre “mondi” lunghi e coerenti, possiamo essere un po ‘di tempo prima di guardare esperienze interattive in tempo reale utilizzando tecniche simili. Tuttavia, come abbiamo visto Google Geni simile al test, probabilmente stiamo assistendo a passi molto precoci in una nuova forma d’arte interattiva e generatore.

Collegamento alla fonte