Il CEO di Nvidia Jensen Huang ha dichiarato l’anno scorso che siamo ormai entrati nell’era dell’intelligenza artificiale fisica. Mentre l’azienda continua a offrire un Master of Science (LLM) per casi d’uso del software, Nvidia si sta posizionando sempre più come fornitore di modelli di intelligenza artificiale per sistemi completamente basati sull’intelligenza artificiale, inclusa l’intelligenza artificiale delle agenzie nel mondo fisico.
Al CES 2026, Nvidia ha annunciato una serie di nuovi modelli progettati per portare gli agenti IA oltre le interfacce di chat e negli ambienti fisici.
Lancio di Nvidia Ragione del cosmo 2è l’ultima versione del modello visione-linguaggio progettato per il ragionamento incarnato. cosmo Motivo 1, lanciato lo scorso annoha introdotto un’ontologia bidimensionale per il ragionamento incarnato ed è attualmente Logica fisica pionieristica di Hugging Face per la classifica dei video.
Cosmos Reason 2 si basa sulla stessa ontologia, offrendo alle organizzazioni maggiore flessibilità per personalizzare le applicazioni e consentendo agli agenti fisici di pianificare le loro azioni successive, in modo simile a come gli agenti basati su software ragionano attraverso flussi di lavoro digitali.
Nvidia ha anche rilasciato una nuova versione di Cosmos Transfer, un modello che consente agli sviluppatori di creare simulazioni di addestramento per i robot.
Altri modelli di linguaggio visivo, come PaliGemma di Google e Pixtral Large di Mistral, possono gestire input visivi, ma non tutti i VLM disponibili in commercio supportano il ragionamento.
“La robotica è a un punto di svolta. Stiamo passando da robot specializzati limitati a singoli compiti a sistemi generalisti”, ha detto Kari Briski, vicepresidente del software di intelligenza artificiale generativa di Nvidia, in un briefing con i giornalisti. Si riferiva a robot che combinano ampie conoscenze di base con competenze approfondite e specifiche per compiti specifici. “Questi nuovi robot combinano un’ampia conoscenza fondamentale con una profonda competenza e compiti complessi”.
Ha aggiunto che Cosmos Reason 2 “migliora le capacità di ragionamento di cui i robot hanno bisogno per navigare nell’imprevedibile mondo fisico”.
Transizione ai rappresentanti fisici
Briski ha osservato che la roadmap di Nvidia segue “lo stesso modello di asset in tutti i nostri modelli aperti”.
“Agenti specializzati nell’intelligenza artificiale, una forza lavoro digitale o l’implementazione fisica dell’intelligenza artificiale nei robot e nei veicoli autonomi richiedono più che semplici modelli”, ha affermato Briski. “In primo luogo, l’intelligenza artificiale ha bisogno di risorse informatiche per addestrare e simulare il mondo che la circonda. I dati sono il carburante per l’apprendimento e l’evoluzione dell’intelligenza artificiale, e noi contribuiamo alla più grande raccolta mondiale di set di dati aperti e diversificati, andando oltre la semplice estrazione dei pesi dei modelli. Le librerie aperte e gli script di formazione forniscono agli sviluppatori gli strumenti per creare intenzionalmente l’intelligenza artificiale per le loro applicazioni e pubblichiamo piani ed esempi per aiutare a distribuire l’intelligenza artificiale come sistemi modello.”
L’azienda dispone ora di modelli aperti per l’intelligenza artificiale fisica in Cosmos, robotica, il modello VLA (visione-linguaggio-azione) con ragionamento aperto Gr00t e modelli Nemotron per l’intelligenza artificiale delle agenzie.
Nvidia sostiene che i modelli aperti tra diversi rami dell’intelligenza artificiale creano un ecosistema aziendale comune che fornisce dati, formazione e ragionamento agli agenti sia nel mondo digitale che in quello fisico.
Aggiunte alla famiglia Nemotron
Briski ha affermato che Nvidia prevede di continuare ad espandere i suoi modelli aperti, inclusa la famiglia Nemotron, incorporando un nuovo modello RAG e docking per rendere le informazioni più facilmente accessibili agli agenti. La società ha rilasciato Nemotron 3, l’ultima versione dei suoi modelli di ragionamento d’agenzia, a dicembre.
Nvidia ha annunciato tre nuove aggiunte alla famiglia Nemotron: Nemotron Speech, Nemotron RAG e Nemotron Safety.
In un post sul blog, Nvidia ha affermato che Nemotron Speech fornisce “riconoscimento vocale in tempo reale e a bassa latenza per sottotitoli in tempo reale e applicazioni vocali AI” ed è 10 volte più veloce di altri modelli vocali.
Nemotron RAG è costituito tecnicamente da due modelli: un modello di aggancio e un modello di risequenziamento; entrambi sono in grado di comprendere le immagini per fornire informazioni più multimodali da sfruttare per i broker di dati.
“Nemotron RAG supera quello che chiamiamo MMTab, o Massive Multilingual Text Embedding Benchmark, con forti prestazioni multilingue utilizzando meno memoria e potenza di calcolo, quindi è una buona scelta per i sistemi che devono gestire un gran numero di richieste molto rapidamente e con bassa latenza”, ha affermato Briski.
Nemotron Safety rileva i dati sensibili, impedendo agli agenti IA di rivelare accidentalmente dati personali.















