Nvidia ha introdotto Nemotron 3, una nuova versione del suo modello di punta, basata su un’architettura che secondo l’azienda più preziosa al mondo offre maggiore precisione e affidabilità per gli agenti.
Nemotron 3 sarà disponibile in tre dimensioni: Nemotron 3 Nano con parametri 30B, principalmente per missioni mirate e ad alto rendimento; Nemotron 3 Super, un modello di parametri da 100B con ragionamento ad alta precisione per applicazioni multi-agente, e Nemotron 3 Ultra, con un motore di ragionamento di grandi dimensioni e circa 500B parametri per applicazioni più complesse.
Per costruire i modelli Nemotron 3, Nvidia ha affermato di essersi rivolta a un’architettura ibrida di esperti (MoE) per aumentare la scalabilità e l’efficienza. Utilizzando questa architettura, Nvidia ha affermato in un comunicato stampa che i suoi nuovi modelli offrono alle aziende maggiore apertura e prestazioni nella creazione di sistemi autonomi multi-agente.
Kari Briski, vicepresidente del software di intelligenza artificiale generativa di Nvidia, ha detto ai giornalisti in un briefing che la società voleva dimostrare il proprio impegno nell’apprendimento e nel miglioramento rispetto alle versioni precedenti dei suoi modelli.
“Combinando la nostra nuova miscela ibrida di architetture esperte con una lunghezza del contesto di 1 milione di token, riteniamo di essere in una posizione unica per servire un ampio spettro di sviluppatori che desiderano la massima flessibilità per personalizzare i modelli per creare un’intelligenza artificiale personalizzata”, ha affermato Briski.
Nvidia ha affermato che i primi ad adottare i modelli Nemotron 3 includono Accenture, CrowdStrike, Cursor, Deloitte, EY, Oracle Cloud Infrastructure, Palantir, Perplexity, ServiceNow, Siemens e Zoom.
Architetture innovative
Nvidia utilizza l’architettura ibrida specialistica Mamba-Transformer per molti dei suoi modelli. Compreso Nemotron-Nano-9B-v2.
L’architettura si basa sulla ricerca della Carnegie Mellon University e di Princeton che intreccia modelli selettivi dello spazio degli stati per elaborare lunghe porzioni di informazioni preservando gli stati. Può ridurre i costi di elaborazione anche in contesti lunghi.
Nvidia ha affermato che il suo design “offre un throughput di token fino a 4 volte superiore” rispetto a Nemotron 2 Nano e può ridurre significativamente i costi di inferenza riducendo la generazione di token di ragionamento fino al 60%.
“Dobbiamo essere in grado di aumentare realmente tale efficienza e ridurre il costo per token. Puoi farlo in vari modi, ma lo stiamo facendo davvero attraverso le innovazioni di questo modello di architettura”, ha affermato Briski. “L’architettura ibrida del trasformatore Mamba funziona molte volte più velocemente con meno memoria perché evita queste enormi mappe di attenzione e cache di valori chiave per ciascun token.”
Nvidia ha introdotto anche un’ulteriore innovazione per i modelli Nemotron 3 Super e Ultra. Per questi, ha detto Briski, Nvidia ha implementato “una svolta chiamata Stealth MoE”.
“Gli esperti del tuo modello condividono tutti un nucleo comune e ne mantengono segreta solo una piccola parte. È come se gli chef condividessero una grande cucina, ma devono avere il proprio portaspezie”, ha aggiunto Briski.
Nvidia non è l’unica azienda che utilizza questo tipo di architettura per costruire modelli. AI21 Labs lo utilizza per i loro ultimi modelli Jamba Jamba Ragionamento nel modello 3D.
I modelli Nemotron 3 utilizzavano l’apprendimento di rinforzo esteso. I modelli più grandi, Super e Ultra, utilizzavano il formato di addestramento NVFP4 a 4 bit dell’azienda; ciò ha permesso loro di allenarsi sulle infrastrutture esistenti senza compromettere la precisione.
I test di benchmark di Synthetic Analysis hanno posizionato i modelli Nemotron ai primi posti tra i modelli di dimensioni simili.
Nuovi ambienti in cui i modelli possono “correre”
Nell’ambito del lancio di Nemotron 3, Nvidia offrirà agli utenti l’accesso alle sue ricerche pubblicando articoli e suggerimenti di esempio, offrendo set di dati aperti in cui le persone possono utilizzare e guardare token pre-allenamento e campioni post-allenamento e, soprattutto, introducendo una nuova NeMo Gym dove i clienti possono far “allenare” i loro modelli e agenti.
NeMo Gym è un laboratorio di apprendimento per rinforzo in cui gli utenti possono far funzionare i propri modelli in ambienti simulati per testare le proprie prestazioni dopo l’allenamento.
AWS ha annunciato uno strumento simile Piattaforma Nova ForgeSi rivolge alle aziende che vogliono provare distillatori di nuova creazione o modelli più piccoli.
Briski ha affermato che i campioni di dati post-allenamento che Nvidia prevede di rilasciare sono “molto più grandi di qualsiasi set di dati post-allenamento esistente e sono anche estremamente tolleranti e aperti”.
Come base per rilasciare maggiori informazioni su come addestra i suoi modelli, Nvidia ha indicato agli sviluppatori che cercano modelli aperti altamente intelligenti e performanti in modo che possano capire meglio come guidarli quando necessario.
“Gli sviluppatori di modelli oggi si trovano ad affrontare questa impegnativa tripletta. Devono elaborare modelli che siano ultra-aperti, ultra-intelligenti e ultra-efficienti”, ha affermato. “La maggior parte dei modelli aperti costringono gli sviluppatori a dolorosi compromessi tra efficienza come costi dei token, latenza e throughput.”
Gli sviluppatori vogliono sapere come viene addestrato un modello, da dove provengono i dati di addestramento e come possono valutarli, ha affermato.














