Ma non vuoi alcuna immagine: vuoi l’immagine che desideri, di solito con un prompt di testo. E quindi il modello di diffusione è combinato con un secondo modello – come un modello di linguaggio di grandi dimensioni (LLM) è addestrato per abbinare le immagini con i dettagli di testo – che guida ogni fase del processo di pulizia, spinge il modello di diffusione verso immagini che considerano una buona corrispondenza per la prompt del modello di linguaggio di grandi dimensioni.
Da un lato: non sta tirando il collegamento tra il testo LLM e le immagini dal nulla. La maggior parte dei modelli text-to-immagine e text-video sono addestrati su set di big data oggi, che hanno un testo e un’immagine o miliardi di accoppiamenti di video e video demoliti da Internet (una pratica è molto triste per molti creatori). Ciò significa che ciò che ottieni da tali modelli è una distillazione del mondo perché rappresenta online, è deformato dal pregiudizio (e dalla pornografia).
È più facile immaginare il modello di diffusione che lavora con le immagini. Ma la tecnologia può essere utilizzata con molti tipi di dati, inclusi audio e video. Per generare una clip per film, un modello di diffusione deve pulire le sequenze di immagini – il frame frequente di un video – anziché una sola immagine.
Cos’è un modello di diffusione latente?
Tutto calcola una grande quantità di (leggi: energia). Questo è il motivo per cui la maggior parte dei modelli di diffusione utilizzati per le generazioni di video utilizza una tecnica chiamata Dissection Avyakta. Invece di elaborare dati grezzi – milioni di pixel in ciascun frame video – il modello è noto come spazio latente, in cui i frame video (e i prompt di testo) sono compressi in un codice matematico che cattura solo le caratteristiche richieste dei dati e butta il resto.
Una cosa simile accade quando trasmetti in streaming un video su Internet: un video viene inviato da un server a un formato compresso sullo schermo in modo da poterlo ottenere velocemente e, quando arriva, il computer o la TV lo riporteranno in un video.