I ricercatori della New York University hanno sviluppato una nuova architettura per i modelli di propagazione che migliora la rappresentazione semantica delle immagini prodotte. “Trasformatore di diffusione con codificatore automatico di rappresentazione” (RAE) sfida alcune norme accettate sui modelli di propagazione edilizia. Il modello del ricercatore della New York University è più efficiente e accurato dei modelli di propagazione standard, si basa sulle ultime ricerche sull’apprendimento delle rappresentazioni e potrebbe aprire la strada a nuove applicazioni che in precedenza erano troppo difficili o costose.
Questa svolta potrebbe sbloccare funzionalità più affidabili e potenti per le applicazioni aziendali. "Per modificare bene le immagini, il modello deve capire veramente cosa c’è dentro." Saining Xie, coautore dello studio, ha detto a VentureBeat. "RAE aiuta a collegare la parte di comprensione alla parte di produzione." Ha anche attirato l’attenzione sulle future applicazioni. "Generazione basata su RAG, in cui si utilizzano le funzionalità del codificatore RAE per la ricerca e quindi si creano nuove immagini in base ai risultati della ricerca" allo stesso tempo "produzione video e modelli del mondo basati sull’azione."
Lo stato della modellazione generativa
Modelli di diffusioneLa tecnologia alla base di molti dei potenti generatori di immagini di oggi si sta inquadrando come un processo di apprendimento per comprimere e decomprimere le immagini. UN. codificatore automatico variazionale (VAE) apprende una rappresentazione compatta delle caratteristiche essenziali di un’immagine in uno spazio chiamato “spazio latente”. Il modello viene quindi addestrato a creare nuove immagini invertendo questo processo dal rumore casuale.
Sebbene la parte di implementazione di questi modelli sia migliorata, il codificatore automatico utilizzato nella maggior parte di essi è rimasto sostanzialmente invariato negli ultimi anni. Secondo i ricercatori della New York University, questo codificatore automatico standard (SD-VAE) è adatto per catturare caratteristiche di basso livello e aspetto locale, ma manca della “struttura semantica globale vitale per la generalizzazione e le prestazioni produttive”.
Allo stesso tempo, questo campo ha visto progressi impressionanti nell’apprendimento della rappresentazione delle immagini con modelli come DINO, MAE e altri. CLIP. Questi modelli apprendono caratteristiche visive strutturate semanticamente che si generalizzano tra le attività e possono servire come base naturale per la comprensione visiva. Ma una convinzione diffusa ha impedito agli sviluppatori di utilizzare queste architetture nel rendering: i modelli che si concentrano sulla semantica non sono adatti al rendering perché non possono catturare caratteristiche dettagliate a livello di pixel. I professionisti ritengono inoltre che i modelli di diffusione non funzionino bene con le rappresentazioni ad alta dimensione prodotte dai modelli semantici.
Distribuzione con codificatori di rappresentazione
I ricercatori della New York University propongono di sostituire il VAE standard con gli “autoencoder di rappresentazione” (RAE). Questo nuovo tipo di codificatore automatico accoppia un codificatore di rappresentazione pre-addestrato; DINO di Metacon un decoder trasformatore di immagine addestrato. Questo approccio semplifica il processo di addestramento utilizzando codificatori esistenti e potenti che sono già stati addestrati su set di dati di grandi dimensioni.
Il team ha sviluppato una variante per far funzionare tutto questo. conversione della trasmissione (DiT) è la spina dorsale della maggior parte dei modelli di rendering. Questo DiT modificato può essere addestrato in modo efficiente nello spazio ad alta dimensione dei RAE senza incorrere in grandi costi computazionali. I ricercatori mostrano che i codificatori di rappresentazioni congelate, anche quelli ottimizzati dalla semantica, possono essere adattati alle attività di rendering. Il loro metodo fornisce ricostruzioni superiori allo standard SD-VAE senza aggiungere complessità architettonica.
Ma adottare questo approccio richiede un cambiamento di pensiero. "RAE non è un semplice codificatore automatico plug-and-play; Anche la parte di modellazione della diffusione deve essere migliorata," Xie ha spiegato. "Uno dei punti importanti che vogliamo sottolineare è che la modellazione dello spazio latente e la modellazione generativa dovrebbero essere progettate insieme piuttosto che considerate separatamente."
I ricercatori hanno scoperto che con i giusti aggiustamenti architettonici, c’è un vantaggio nelle rappresentazioni ad alta dimensione che offrono una struttura più ricca, una convergenza più rapida e una migliore qualità di produzione. Dentro i loro documentiricercatori di questi "gli elementi nascosti di dimensione superiore non impongono effettivamente costi aggiuntivi di elaborazione o memoria." Inoltre, SD-VAE standard è computazionalmente più costoso e richiede circa sei volte più calcoli per il codificatore e tre volte più calcoli per il decodificatore rispetto a RAE.
Prestazioni ed efficienza più potenti
La nuova architettura del modello offre vantaggi significativi sia in termini di efficienza della formazione che di qualità della produzione. La ricetta di propagazione migliorata dal team ottiene ottimi risultati dopo soli 80 periodi di allenamento. Rispetto ai precedenti modelli di propagazione addestrati su VAE, il modello basato su RAE raggiunge una velocità di addestramento 47 volte superiore. Inoltre, supera i metodi all’avanguardia basati sull’allineamento della rappresentazione con un aumento della velocità di formazione di 16 volte. Questo livello di efficienza si traduce direttamente in minori costi di formazione e cicli di sviluppo del modello più rapidi.
Per l’uso aziendale, ciò significa risultati più affidabili e coerenti. Xie ha affermato che i modelli basati su RAE sono meno inclini agli errori semantici osservati nella diffusione classica, aggiungendo che RAE fornisce il modello. "una lente molto più intelligente sui dati." Ha osservato che modelli leader come ChatGPT-4o e Nano Banana di Google si stanno muovendo nella giusta direzione. "generazione orientata alla materia, altamente coerente e arricchita di conoscenze," e che le basi semanticamente ricche di RAE sono fondamentali per raggiungere questa affidabilità su larga scala e in modelli open source.
I ricercatori hanno dimostrato questa prestazione nel benchmark ImageNet. utilizzando Distanza di partenza di Fréchet Con la metrica (FID), dove un punteggio inferiore indica immagini di qualità superiore, il modello basato su RAE ha ottenuto un punteggio allo stato dell’arte di 1,51 senza guida. Con AutoGuidance, una tecnica che utilizza un modello più piccolo per guidare il processo di produzione, il punteggio FID è sceso a un valore ancora più impressionante di 1,13 sia per le immagini 256×256 che per quelle 512×512.
Integrando con successo l’apprendimento della rappresentazione moderna nel quadro della diffusione, questo lavoro apre un nuovo percorso verso la costruzione di modelli generativi più capaci ed economici. Questa fusione punta a un futuro di sistemi di intelligenza artificiale più integrati.
"Crediamo che in futuro ci sarà un modello di rappresentazione unico e unificato che catturerà la ricca struttura sottostante la realtà e potrà essere trasformato in molti formati di output diversi." Xie ha detto. Ha aggiunto che RAE offre un percorso unico verso questo obiettivo: "Lo spazio latente ad alta dimensionalità deve essere appreso separatamente per fornire un forte valore antecedente che possa poi essere decodificato secondo vari metodi, piuttosto che fare affidamento su un approccio di forza bruta come la mescolanza di tutti i dati e l’addestramento con più obiettivi contemporaneamente."















