I modelli di diffusione dell’intelligenza artificiale generativa come Stable Diffusion o FLUX spesso si affidano a tecnologie esterne per creare immagini o video coerenti. "insegnanti"Codificatori congelati come CLIP o DINOv2 per fornire una comprensione semantica che non possono apprendere da soli.

Ma questa fiducia ha un prezzo: "collo di bottiglia" l’ampliamento del modello non produce più risultati migliori perché l’insegnante esterno ha raggiunto il suo limite.

Oggi, startup tedesca di intelligenza artificiale Black Forest Labs (produttore della serie FLUX di modelli di display AI) ha annunciato: Una potenziale fine a questa era di debito accademico Lancio del flusso automaticoUn framework di corrispondenza del flusso autosupervisionato che consente ai modelli di apprendere simultaneamente la rappresentazione e il rendering.

Integrando un nuovo meccanismo di pianificazione Dual Time Step, Black Forest Labs ha dimostrato che un singolo modello può ottenere risultati all’avanguardia su immagini, video e audio senza alcun controllo esterno.

Tecnologia: pausa "divario semantico"

Il problema principale dell’istruzione produttiva tradizionale è "rumoroso" dovere. Al modello viene mostrato il rumore e gli viene chiesto di trovare un’immagine; Ha pochi incentivi a capire cos’è l’immagine, solo come appare.

Per risolvere questo problema, i ricercatori hanno precedentemente "allineato" Caratteristiche produttive con modelli distintivi esterni. Ma Black Forest Labs sostiene che questo è fondamentalmente difettoso: questi modelli esterni spesso funzionano su obiettivi disallineati e non riescono a generalizzare attraverso diverse modalità, come la voce o la robotica.

Self-Flow, la nuova tecnica dei laboratori, "asimmetria informativa" per risolvere questo problema. Il sistema applica diversi livelli di rumore a diverse parti dell’input utilizzando una tecnica chiamata Dual Time Step Scheduling. Mentre lo studente riceve una versione altamente distorta dei dati, l’insegnante riceve una versione della media mobile esponenziale (EMA) del modello. "più pulito" versione degli stessi dati.

Allo studente viene quindi assegnato il compito non solo di creare l’output finale, ma anche di prevedere quale sarà. "più pulito" il sé vede; un processo di auto-distillazione in cui l’insegnante è al 20° strato e lo studente è all’8° strato. "Doppio passaggio" L’approccio costringe il modello a sviluppare una profonda comprensione semantica interna, insegnando effettivamente a se stesso come vedere mentre impara a creare.

Risultati del prodotto: più veloce, più nitido e multimodale

Le conseguenze pratiche di questo cambiamento sono sorprendenti. Secondo il documento di ricerca, Self-Flow converge circa 2,8 volte più velocemente del metodo REpresentation Alignment (REPA), l’attuale standard di settore per l’allineamento delle funzionalità. Forse ancora più importante, non diventa statico; Mentre il Self-Flow continua ad evolversi con l’aumento dei calcoli e dei parametri, i metodi legacy mostrano rendimenti decrescenti.

Il balzo in termini di efficienza della formazione può essere compreso meglio attraverso la lente dei passaggi computazionali grezzi: standard "vaniglia" Mentre tradizionalmente sono necessari 7 milioni di passi per raggiungere un livello prestazionale di base nell’allenamento, REPA ha ridotto questo percorso a soli 400.000 passi, ovvero un’accelerazione di 17,5 volte.

Il framework Self-Flow di Black Forest Labs spinge ulteriormente questo limite, funzionando 2,8 volte più velocemente di REPA, raggiungendo lo stesso traguardo prestazionale in circa 143.000 passaggi.

Nel complesso, questa evoluzione rappresenta una riduzione di quasi 50 volte del numero totale di fasi di formazione necessarie per ottenere risultati di alta qualità, trasformando di fatto quello che una volta era un enorme fabbisogno di risorse in un processo significativamente più accessibile e snello.

Black Forest Labs ha dimostrato questi miglioramenti attraverso un modello multimodale con parametri 4D. Addestrato su un enorme set di dati di 200 milioni di immagini, 6 milioni di video e 2 milioni di coppie audio-video, il modello ha mostrato progressi significativi in ​​tre aree chiave:

  1. Tipografia e creazione di testi: Uno dei più persistenti "racconta" La maggior parte delle immagini AI sono state convertite in testo confuso. Self-Flow supera significativamente le prestazioni di abbinamento del flusso standard nella creazione di insegne ed etichette complesse e leggibili, come la scrittura accurata delle insegne al neon "FLUX è multimodale".

  2. Consistenza temporale: Self-Flow elimina molti problemi nella produzione video. "allucinato" Artefatti comuni nei modelli attuali, come gli arti che scompaiono spontaneamente durante il movimento.

  3. Sintesi video-audio comune: Poiché il modello apprende le rappresentazioni localmente, può produrre video e audio sincronizzati da una singola richiesta; questo è un compito esterno. "preso in prestito" le rappresentazioni spesso falliscono perché il codificatore video non capisce il suono.

In termini di parametri quantitativi, Self-Flow ha ottenuto risultati superiori rispetto ai valori di riferimento della concorrenza. Sull’immagine FID il modello ha ottenuto un punteggio di 3,61 rispetto al 3,92 del REPA. Per il video (FVD), ha ottenuto un punteggio di 47,81 rispetto a 49,59 di REPA, e per l’audio (FAD), ha ottenuto un punteggio di 145,65 contro 148,87 della linea di base vanilla.

Dai pixel alla pianificazione: il percorso verso i modelli mondiali

L’annuncio si conclude con uno sguardo ai modelli mondiali; L’intelligenza artificiale non solo produce bellissime immagini, ma comprende anche la fisica e la logica di base di una scena per la pianificazione e la robotica.

Mettendo a punto la versione con parametri 675M di Self-Flow sul set di dati robotici RT-1, i ricercatori hanno ottenuto tassi di successo significativamente più elevati su compiti complessi a più fasi nel simulatore SIMPLER. Mentre la corrispondenza del flusso standard fatica a risolvere problemi complessi "Apri e posiziona" Il modello Self-Flow manteneva un tasso di successo costante su compiti che spesso fallivano completamente, suggerendo che le sue rappresentazioni interne erano sufficientemente robuste per il ragionamento visivo nel mondo reale.

Dettagli applicativi e tecnici

Per i ricercatori che desiderano verificare queste affermazioni, Black Forest Labs ha rilasciato un pacchetto di inferenza su GitHub soprattutto per la generazione ImageNet 256×256. Scritto principalmente in Python, il progetto fornisce l’architettura del modello SelfFlowPerTokenDiT basato su SiT-XL/2.

Gli ingegneri possono utilizzare lo script sample.py fornito per generare 50.000 immagini per la valutazione FID standard. Il repository evidenzia che un cambiamento architetturale chiave in questa implementazione è il condizionamento del timestep per token, che consente a ciascun token in un array di essere condizionato al suo specifico timestep di rumore. Durante l’addestramento, il modello ha utilizzato la precisione ibrida BFloat16 e l’ottimizzatore AdamW con ritaglio del gradiente per mantenere la stabilità.

Licenza e disponibilità

Laboratori della Foresta Nera Ho preparato l’articolo di ricerca E Codice di estrazione ufficiale disponibile tramite GitHub e il loro portale di ricerca. Sebbene questa sia attualmente un’anteprima della ricerca, la storia dell’azienda con la famiglia di modelli FLUX indica che queste innovazioni probabilmente troveranno la loro strada nelle API commerciali e nelle offerte a peso aperto nel prossimo futuro.

Per gli sviluppatori, allontanarsi dai programmatori esterni è un grande vantaggio in termini di produttività. Elimina la necessità di gestire modelli separati e pesanti come DINOv2 durante la formazione, semplificando lo stack e consentendo una formazione più specializzata e specifica per dominio che non è responsabilità di nessun altro "congelato" comprensione del mondo.

Implicazioni per i decisori e gli adottanti tecnici aziendali

Per le aziende, l’arrivo di Self-Flow rappresenta un cambiamento significativo nell’analisi costi-benefici dello sviluppo di IA personalizzata.

Anche se i beneficiari più immediati sono le organizzazioni che addestrano da zero modelli su larga scala, la ricerca mostra che la tecnologia è altrettanto potente per la messa a punto ad alta risoluzione. Poiché il metodo converge quasi tre volte più velocemente degli standard attuali, le aziende possono ottenere risultati all’avanguardia con una frazione del budget informatico tradizionale.

Questa efficienza consente alle aziende di andare oltre le soluzioni generiche standardizzate e di sviluppare modelli personalizzati che sono profondamente compatibili con i loro specifici domini di dati, che si tratti di imaging medico di nicchia o di dati di sensori industriali specializzati.

Le applicazioni pratiche di questa tecnologia si estendono ai settori industriali ad alto rischio, in particolare alla robotica e ai sistemi autonomi. Sfruttare la capacità di apprendimento del framework "modelli del mondo," Le aziende del settore manifatturiero e della logistica possono sviluppare modelli di visione-linguaggio-azione (VLA) che hanno una comprensione superiore dello spazio fisico e del ragionamento sequenziale.

Nei test di simulazione, Self-Flow ha consentito ai controller robotici di eseguire con successo compiti complessi che prevedono più oggetti (come posizionare un oggetto all’interno di un cassetto per aprirlo) dove i modelli generativi tradizionali falliscono. Ciò dimostra che la tecnologia è uno strumento essenziale per qualsiasi organizzazione che cerca di colmare il divario tra la produzione di contenuti digitali e l’automazione fisica nel mondo reale.

Oltre ai miglioramenti in termini di prestazioni, Self-Flow offre alle aziende un vantaggio strategico semplificando l’infrastruttura AI sottostante. La maggior parte dei sistemi di produzione attuali "Frankenstein" Modelli che richiedono codificatori semantici esterni complessi, spesso di proprietà e concessi in licenza da terze parti.

Combinando rappresentanza e produzione in un’unica architettura, Self-Flow aiuta le aziende a eliminare queste dipendenze esterne, ridurre il debito tecnico e "colli di bottiglia" È associato al ridimensionamento degli insegnanti di terze parti. Questa natura autonoma consente alle prestazioni del modello di scalare in modo prevedibile passo dopo passo man mano che un’organizzazione ridimensiona il proprio calcolo e i propri dati, fornendo un ritorno sull’investimento più chiaro per gli investimenti nell’intelligenza artificiale a lungo termine.

Collegamento alla fonte