I grandi modelli linguistici devono affrontare limitazioni in campi che richiedono la comprensione del mondo fisico, dalla robotica alla guida autonoma fino alla produzione. Questa restrizione spinge gli investitori verso modelli mondiali e AMI Labs ha presto raccolto un round iniziale di 1,03 miliardi di dollari World Labs ha raccolto 1 miliardo di dollari.

I modelli linguistici di grandi dimensioni (LLM) sono eccellenti nell’elaborazione di informazioni astratte attraverso la successiva previsione dei token, ma mancano di una base fondamentale nella causalità fisica. Non possono prevedere in modo affidabile le conseguenze fisiche delle azioni del mondo reale.

Mentre l’industria cerca di spingere l’intelligenza artificiale dai browser web agli spazi fisici, i ricercatori e i leader di pensiero sull’intelligenza artificiale parlano sempre più apertamente di queste limitazioni. In un’intervista con il podcaster Dwarkesh PatelIl vincitore del Turing Award Richard Sutton ha avvertito che gli studenti laureati stanno semplicemente imitando ciò che la gente dice piuttosto che modellare il mondo, il che limita la loro capacità di imparare dall’esperienza e di adattarsi ai cambiamenti nel mondo.

Pertanto, i modelli basati su LLM, inclusi i modelli del linguaggio visivo (VLM), possono mostrare un comportamento fragile e rompersi con cambiamenti molto piccoli nel loro input.

CEO di Google DeepMind Demis Hassabis Ha fatto eco a questo sentimento in un’altra intervista, sottolineando che i modelli di intelligenza artificiale di oggi soffrono di “intelligenza frastagliata”. Possono risolvere complesse olimpiadi di matematica, ma falliscono nella fisica di base perché mancano di competenze critiche legate alle dinamiche del mondo reale.

Per risolvere questo problema, i ricercatori si stanno concentrando sulla creazione di modelli del mondo che fungano da simulatori interni e consentano ai sistemi di intelligenza artificiale di testare in modo sicuro le ipotesi prima di intraprendere azioni fisiche. Ma “modelli mondiali” è un termine generico che copre molti approcci architettonici diversi.

Ciò ha prodotto tre diversi approcci architettonici, ciascuno con diversi compromessi.

JEPA: progettato in tempo reale

Il primo approccio principale si concentra sull’apprendimento delle rappresentazioni latenti piuttosto che sul tentativo di prevedere le dinamiche del mondo a livello di pixel. Convalidato da AMI Labs, questo metodo si basa in gran parte sulla Joint Embedding Prediction Architecture (JEPA).

I modelli JEPA tentano di imitare il modo in cui gli esseri umani comprendono il mondo. Quando osserviamo il mondo, non memorizziamo ogni pixel o dettaglio irrilevante di una scena. Ad esempio, se guardi un’auto che guida per strada, ne segui la traiettoria e la velocità; Non stai tenendo esattamente conto del riflesso della luce su ciascuna foglia degli alberi sullo sfondo.

I modelli JEPA riproducono questa scorciatoia cognitiva umana. Invece di forzare la rete neurale a prevedere esattamente come sarà il fotogramma successivo di un video, il modello apprende un insieme più piccolo di caratteristiche astratte o “nascoste”. Scarta i dettagli irrilevanti e si concentra interamente sulle regole di base su come interagiscono gli elementi nella scena. Ciò rende il modello resistente al rumore di fondo e ai piccoli cambiamenti che interrompono altri modelli.

Questa architettura è altamente efficiente in termini di calcolo e memoria. Ignorando i dettagli irrilevanti, richiede molti meno campioni di addestramento e viene eseguito con una latenza significativamente inferiore. Queste caratteristiche lo rendono adatto per applicazioni in cui l’efficienza e l’inferenza in tempo reale non sono negoziabili, come la robotica, le automobili senza conducente e i flussi di lavoro aziendali ad alto rischio.

Ad esempio, AMI sta collaborando con l’azienda sanitaria Nabla per utilizzare questa architettura per simulare la complessità operativa e ridurre il carico cognitivo in ambienti sanitari frenetici.

Yann LeCun, uno dei pionieri dell’architettura JEPA e co-fondatore di AMI, ha spiegato: Modelli mondiali basati su JEPA progettato per essere "È controllabile nel senso che puoi dare loro degli obiettivi e, attraverso la costruzione, tutto ciò che possono fare è raggiungere quegli obiettivi." In un’intervista con Newsweek.

Avvertenze di Gauss: progettato per lo spazio

Il secondo approccio si basa su modelli generativi per creare ambienti spaziali completi da zero. È stato adottato da aziende come Laboratori mondialiquesto metodo prende il prompt iniziale (che può essere un’immagine o una descrizione testuale) e utilizza un modello generativo per creare uno stimolo gaussiano 3D. L’eccitazione gaussiana è una tecnica per rappresentare scene 3D utilizzando milioni di minuscole particelle matematiche che definiscono la geometria e l’illuminazione. A differenza del rendering video piatto, queste rappresentazioni 3D possono essere importate direttamente nella fisica standard e nei motori 3D come Unreal Engine, dove gli utenti e altri agenti IA possono navigare liberamente e interagire con loro da qualsiasi angolazione.

Il vantaggio principale in questo caso è una significativa riduzione del tempo e dei costi di produzione una tantum necessari per creare ambienti 3D interattivi complessi. I master sono in definitivaparolieri nell’oscurità” ha un linguaggio elaborato ma manca di intelligenza spaziale ed esperienza fisica. Il modello Marble di World Labs fornisce all’IA la consapevolezza spaziale mancante.

Sebbene questo approccio non sia progettato per un’esecuzione istantanea e in tempo reale, ha un grande potenziale per la creazione di ambienti di formazione statici per l’informatica spaziale, l’intrattenimento interattivo, il design industriale e la robotica. Il valore aziendale di Autodesk è chiaramente visibile Supporto intensivo da parte dei World Laboratories Integrazione di questi modelli in applicazioni di progettazione industriale.

Generazione end-to-end: costruita su larga scala

Il terzo approccio utilizza un modello generativo end-to-end per elaborare i suggerimenti e le azioni dell’utente, generando continuamente la scena, le dinamiche fisiche e le risposte immediate. Invece di importare un file 3D statico in un motore fisico esterno, il modello stesso funge da motore. Richiede un prompt iniziale e un flusso continuo di azioni dell’utente e rende i fotogrammi successivi dell’ambiente in tempo reale calcolando localmente le risposte fisiche, di illuminazione e degli oggetti.

Mente profonda genio 3 e Nvidia Universo rientra in questa categoria. Questi modelli forniscono un’interfaccia molto semplice per creare infinite esperienze interattive e grandi quantità di dati sintetici. DeepMind lo ha dimostrato in modo nativo con Genie 3Mostra come il modello mantiene la solida persistenza degli oggetti e la fisica coerente a 24 fotogrammi al secondo senza fare affidamento su un modulo di memoria separato.

Questo approccio si traduce direttamente in fabbriche di dati sintetici ad alto rendimento. Nvidia Cosmos utilizza questa architettura per ridimensionare i dati sintetici e il ragionamento fisico dell’intelligenza artificiale, consentendo agli sviluppatori di veicoli e robot autonomi di sintetizzare condizioni limite rare e pericolose senza il costo o il rischio di test fisici. waymo (una filiale di Alphabet) ha costruito il modello del mondo su Genie 3 e lo ha adattato per addestrare le auto senza conducente.

Lo svantaggio di questo metodo generativo end-to-end è l’elevato costo computazionale richiesto per elaborare continuamente fisica e pixel simultaneamente. Tuttavia, sono necessari investimenti per realizzare la visione delineata da Hassabis. Hassabis sostiene che è necessaria una comprensione profonda e intrinseca della causalità fisica perché l’attuale intelligenza artificiale non dispone delle capacità critiche per operare in sicurezza nel mondo reale.

Il futuro: architetture ibride

I master continueranno a fungere da interfacce di ragionamento e comunicazione, ma i modelli mondiali si stanno posizionando come l’infrastruttura sottostante per i flussi di dati fisici e spaziali. Man mano che i modelli sottostanti maturano, assistiamo all’emergere di architetture ibride che sfruttano i punti di forza di ciascun approccio.

Ad esempio, è stata recentemente sviluppata la startup di sicurezza informatica DeepTempo LogLMUn modello che integra elementi di LLM e JEPA per rilevare anomalie e minacce informatiche nei registri di sicurezza e di rete.

Collegamento alla fonte