Un modello di diffusione convenzionale (a sinistra in ogni set di tre) e un artefatti colorati di Vincent Van Gag generati da un generatore di immagini ottico (a destra)
Shiki Chen et al. 2025
Un generatore di immagini di intelligenza artificiale che utilizza la luce per produrre immagini piuttosto che hardware di calcolo tradizionale può consumare centinaia di volte meno energia.
Quando un modello di intelligenza artificiale produce un’immagine dal testo, di solito utilizza un processo chiamato dissezione. L’intelligenza artificiale viene prima mostrata una vasta raccolta di immagini e mostrato come distruggerle usando il rumore statistico, quindi codifica questi schemi in un insieme di regole. Quando viene data una nuova immagine di rumore, può usare queste regole per fare la stessa cosa al contrario: in diverse fasi, funziona verso un’immagine coerente che corrisponde a una determinata richiesta di testo.
Per immagini realistiche e ad alta risoluzione, la proliferazione utilizza diversi stadi sequenziali che richiedono un livello significativo di potenza di calcolo. Ad aprile, Openai segnalato Il suo nuovo generatore di immagini ha realizzato oltre 700 milioni di immagini nella prima settimana del suo funzionamento. Sono necessarie una grande quantità di energia e acqua per soddisfare questa scala di domanda in modo che le macchine che gestiscono il modello possano essere rafforzate e raffreddate.
Ora, Aydogan Ozacan L’Università della California, Los Angeles e i loro colleghi hanno sviluppato un generatore di immagini basato su diffusione che funziona usando un raggio di luce. Mentre il processo di codifica è digitale, è necessaria una piccola quantità di energia, il processo di decodifica è completamente a base leggera, che non richiede alcun potere computazionale.
“A differenza del modello di proliferazione digitale, che richiede migliaia di fasi ricorrenti, questo processo riceve la generazione di immagini in un’istantanea, nessun calcolo aggiuntivo oltre la codifica precoce”, afferma Ozchan.
Il sistema utilizza innanzitutto un coder digitale addestrato utilizzando un set di dati di immagini disponibile al pubblico, che può produrre statico che può essere convertito in immagini. Quindi, ha usato questo encoder con uno schermo di cristallo liquido, chiamato una luce spaziale rinnovabile (SLM) che può stampare fisicamente questo statico nel raggio laser. Quando il raggio laser passa attraverso un secondo SLM di decodifica, produce immediatamente l’immagine desiderata sullo schermo registrato da una fotocamera.
Ozacan e il suo team hanno usato il loro sistema per produrre immagini in bianco e nero di oggetti semplici come i punti da 1 a 9 o l’abbigliamento di base, che vengono utilizzati per testare il modello di diffusione, nonché immagini di colore pieno nello stile del Vincent Van Gag. I risultati sono stati ampiamente visti come persone prodotte dai generatori di immagini tradizionali.
“Questo è probabilmente il primo esempio in cui una rete neurale ottica non è solo un giocattolo di laboratorio, ma uno strumento computazionale in grado di produrre i risultati del valore pratico”, Alexander Lovsky All’Università di Oxford.
Per le fotografie dello stile di Van Gag, il sistema consuma solo pochi milioni di energia per immagine, principalmente per gli schermi di cristalli liquidi, rispetto a centinaia o migliaia di joles che richiedono modelli di diffusione tradizionali. “Per tenerlo in prospettiva, quest’ultimo è uguale alla quantità di elettricità. Un bollitore elettrico consuma in un secondo, mentre il consumo della macchina ottica si adatta a un secondo milionesimo di secondo”, afferma Lovski.
Mentre il sistema dovrà essere ottimizzato per funzionare nei data center anziché in strumenti di generazione di immagini ampiamente utilizzati, Ozacan afferma che può trovare un uso in elettronica indossabile come il vetro AI a causa di basse esigenze di potenza.
Soggetto: