I sistemi multi-agente progettati per gestire attività a lungo termine come l’ingegneria del software o la definizione delle priorità in materia di sicurezza informatica possono generare fino a 15 volte il volume di token delle chat standard, mettendo a rischio il rapporto costo-efficacia dell’esecuzione delle attività aziendali.
Ma oggi Nvidia ha cercato di aiutare a risolvere questo problema. Rilascio di Nemotron 3 SuperIl modello ibrido con 120 miliardi di parametri si basa sui pesi. Volto che abbraccia.
Combinazione di diverse filosofie architettoniche (modelli stato-spazio, trasformatori e un romanzo) "Nascosto" Progettazione di miscele esperte: Nvidia si impegna a fornire la profondità specializzata necessaria per i flussi di lavoro delle agenzie senza il tipico gonfiamento riscontrato nei modelli di ragionamento pesante, ed è tutto disponibile per uso commerciale con pesi prevalentemente aperti.
Tripla architettura ibrida
Al centro di Nemotron 3 Super c’è un trio di architetture avanzate che bilanciano l’efficienza della memoria con il ragionamento di precisione. Il modello utilizza a Dorsale ibrida Mamba-TransformerCombinando gli strati Mamba-2 con gli strati strategici di attenzione del Transformer.
Per comprendere il loro impatto sulla produzione aziendale, considerare: "ago nel pagliaio" problema. Mamba-2 strati uno "viaggio veloce" Sistema autostradale che esegue la maggior parte dell’elaborazione sequenziale con complessità temporale lineare. Ciò consente al modello di mantenere un’enorme finestra di contesto di 1 milione di token senza l’esplosione dello spazio di memoria della cache KV. Tuttavia, i modelli puri dello spazio degli stati spesso hanno difficoltà con il richiamo associativo.
Per risolvere questo problema, Nvidia aggiunge strategicamente livelli di attenzione a Transformer. "ancore globali," Garantire che il modello possa recuperare con precisione determinati fatti sepolti in profondità in una base di codice o in una pila di report finanziari.
Oltre la colonna vertebrale, il modello introduce: Mix esperto latente (LatentMoE). Il tradizionale Expert Hashing (MoE) indirizza i token agli esperti nella loro esatta dimensione segreta, il che crea un collo di bottiglia computazionale man mano che i modelli si ridimensionano. LatentMoE risolve questo problema riflettendo i token in uno spazio compresso prima di inoltrarli agli esperti.
Questo "compressione esperta" consentendo al modello di consultare un numero quattro volte superiore di esperti esattamente allo stesso costo computazionale. Questo livello di dettaglio è vitale per gli agenti che devono passare dalla sintassi Python, alla logica SQL e al ragionamento conversazionale in un unico turno.
Ciò che accelera ulteriormente il modello è il Multi-Token Prediction (MTP). Mentre i modelli standard prevedono un singolo token futuro, MTP prevede più token futuri contemporaneamente. Questo "progetto di modello costruito," Abilita la decodifica speculativa nativa, che può fornire un’accelerazione fino a 3 volte superiore per attività di rendering strutturato come chiamate di codice o strumenti.
Vantaggio Blackwell
Il salto tecnico più significativo nel Nemotron 3 Super for business è l’ottimizzazione per la piattaforma GPU Nvidia Blackwell. Nvidia ha ottenuto una svolta nell’efficienza del throughput pre-addestrandosi in modo nativo su NVFP4 (virgola mobile a 4 bit).
Su Blackwell, il modello fornisce un’inferenza 4 volte più veloce senza perdita di precisione rispetto ai modelli a 8 bit eseguiti sulla precedente architettura Hopper.
Nelle prestazioni pratiche, il Nemotron 3 Super è uno strumento speciale per il ragionamento attivo.
Attualmente è al primo posto nel DeepResearch Bench, un benchmark che misura la capacità dell’intelligenza artificiale di condurre ricerche complete e in più fasi su grandi quantità di documenti.
|
Test di qualità |
Nemotron 3Super |
Qwen3.5-122B-A10B |
GPT-OSS-120B |
|
Informazioni generali |
|||
|
MMLU-Pro |
83,73 |
86,70 |
81,00 |
|
ragionamento |
|||
|
AIME25 (nessuno strumento) |
90.21 |
90.36 |
92,50 |
|
HMMT 25 febbraio (senza strumenti) |
93,67 |
91,40 |
90,00 |
|
HMMT 25 febbraio (con veicoli) |
94,73 |
89,55 |
— |
|
GPQA (nessun veicolo) |
79.23 |
86,60 |
80.10 |
|
GPQA (con strumenti) |
82,70 |
— |
80.09 |
|
LiveCodeBench (v5 2024-072024-12) |
81.19 |
78,93 |
88,00 |
|
SciCode (attività secondaria) |
42.05 |
42.00 |
39,00 |
|
HLE (nessun veicolo) |
18.26 |
25.30 |
14.90 |
|
HLE (con strumenti) |
22.82 |
— |
19.0 |
|
Rappresentante |
|||
|
Terminal Workbench (sottoinsieme fisso) |
25.78 |
26.80 |
24.00 |
|
Terminale Loom Core 2.0 |
31.00 |
37,50 |
18.70 |
|
Panca SWE (OpenHands) |
60.47 |
66,40 |
41.9 |
|
Banco SWE (OpenCode) |
59.20 |
67,40 |
— |
|
Panca SWE (Codice) |
53.73 |
61.20 |
— |
|
SWE-Bench multilingue (OpenHands) |
45.78 |
— |
30,80 |
|
TauBench V2 |
|||
|
Compagnia aerea |
56.25 |
66.0 |
49.2 |
|
Vedere al dettaglio |
62.83 |
62.6 |
67,80 |
|
telecomunicazioni |
64.36 |
95,00 |
66,00 |
|
Media |
61.15 |
74.53 |
61.0 |
|
Sfoglia per SearchComp |
31.28 |
— |
33,89 |
|
Telaio per uccelli |
41,80 |
— |
38.25 |
|
Monitoraggio di chat e istruzioni |
|||
|
IFBench (richiesta) |
72.56 |
73,77 |
68.32 |
|
Scala la sfida multigiocatore dell’IA |
55.23 |
61,50 |
58.29 |
|
Arena-Sert-V2 |
73,88 |
75.15 |
90.26 |
|
Contesto lungo |
|||
|
AA-LCR |
58.31 |
66,90 |
51,00 |
|
RIGHELLO @ 256k |
96.30 |
96,74 |
52.30 |
|
RIGHELLO @ 512k |
95,67 |
95,95 |
46,70 |
|
RIGHELLO @ 1M |
91,75 |
91.33 |
22.30 |
|
Multilingue |
|||
|
MMLU-ProX (media sulla lunghezza) |
79.36 |
85.06 |
76,59 |
|
WMT24++ (tr→xx) |
86,67 |
87,84 |
88,89 |
Dimostra inoltre vantaggi significativi in termini di throughput, ottenendo un throughput fino a 2,2 volte superiore rispetto a gpt-oss-120B e fino a 7,5 volte superiore rispetto a Qwen3.5-122B in ambienti ad alto volume.
Licenza speciale “aperta”: uso commerciale ma avvertenze importanti
Rilascio di Nemotron 3 Super Contratto di licenza Nvidia Open Model (Aggiornato a ottobre 2025) fornisce un quadro tollerante per l’adozione aziendale, ma presenta caratteristiche diverse "proteggere" clausole che la distinguono dalle licenze open source pure come MIT o Apache 2.0.
Disposizioni chiave per gli utenti aziendali:
-
Disponibilità commerciale: La licenza afferma chiaramente che i modelli "disponibile in commercio" e concede una licenza perpetua, mondiale ed esente da royalty per vendere e distribuire prodotti basati sul modello.
-
Proprietà dell’output: Nvidia non fa affermazioni sull’output prodotto dal modello; La responsabilità e la proprietà di questi output spetta interamente all’utente.
-
Opere derivate: Le aziende sono libere di creare e possedere "Modelli derivati" (versioni ottimizzate), purché includano l’avviso di attribuzione richiesto: "Concesso in licenza da Nvidia Corporation ai sensi della licenza Nvidia Open Model."
"Linee rosse":
La licenza include due trigger critici di risoluzione che i team di produzione devono seguire:
-
Ringhiere di sicurezza: Se un utente ignora o elude le funzionalità del modello, la licenza viene automaticamente terminata. "ringhiere" (limitazioni tecniche o iperparametri di sicurezza) "in gran parte simili" sostituzione per adattarsi alla situazione di utilizzo.
-
Attivazione del caso: Se un utente intenta una causa sul copyright o sui brevetti contro Nvidia sostenendo che il modello viola i suoi diritti di proprietà intellettuale, la sua licenza per utilizzare il modello termina immediatamente.
Questa struttura consente a Nvidia di sviluppare un ecosistema commerciale proteggendosi allo stesso tempo. "Trolling IP" e garantire che il modello non venga privato delle funzionalità di sicurezza per usi dannosi.
“La squadra ha fatto davvero un buon lavoro”
Il rilascio ha creato un notevole entusiasmo all’interno della comunità degli sviluppatori. Chris Alexiuk, Senior Product Research Engineer di Nvidia, ha annunciato il lancio di X a suo nome @llm_wizard aspetto "GIORNATA SUPER," enfatizza la velocità e la trasparenza del modello. "Modello: VELOCE. Modello: SMART. Modello: IL MODELLO PIÙ CHIARO CHE ABBIAMO MAI REALIZZATO," Chris ha condiviso un post in cui sottolinea che non solo verranno rilasciati i pesi, ma anche i dati e le ricette di allenamento per 10 trilioni di token.
L’adozione da parte del settore riflette questo entusiasmo:
-
Cloud e hardware: Il modello viene distribuito come segue: Microservizio NIM di NvidiaNe consente la gestione all’interno dell’azienda. Fabbrica di intelligenza artificiale Dell O HPEanche su Google Cloud, Oracle e brevemente su AWS e Azure.
-
Agenzie di produzione: come le aziende CodeTavşan (sviluppo software) e grettile Quando si integra il modello per eseguire analisi di codebase su larga scala, i leader industriali Siemens E palantir lo usano per automatizzare flussi di lavoro complessi nella produzione e nella sicurezza informatica.
Come afferma Kari Briski, vicepresidente del software AI di Nvidia: "Man mano che le aziende vanno oltre i chatbot e si orientano verso applicazioni multi-agente, si trovano ad affrontare un’esplosione di contesto."
Nemotron 3 Super è la risposta di Nvidia a questa esplosione; "potere del cervello" Il sistema di parametri 120B ha l’efficienza operativa di uno specialista molto più piccolo. Per l’organizzazione il messaggio è chiaro: "pensare alle tasse" Finalmente sta scendendo.















