Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora
I piccoli modelli trascorrono un momento. In seguito alla pubblicazione di un nuovo modello di AI Vision Abbastanza piccolo da adattarsi all’orologio intelligente Da un modello a lavorare su uno smartphone da MIT Spin -ff Liquid AI e Google, Nvidia si unisce alla festa oggi con Un nuovo modello di lingua (SLM) da solo Nemotron-Nano-9b-V2Nei criteri selezionati, le prestazioni più alte della sua classe e hanno la capacità degli utenti di accendere e uscire dall’IA su “Ragionamento VE e ottenere una risposta.
9 miliardi di parametri, sebbene sia maggiore di alcuni dei recenti parametri multimilionari coperti da VentureBeatNvidia afferma che vi è una riduzione significativa della dimensione originale di 12 miliardi di parametri. e uno Singolo nvidia a10 gpu.
Come Nvidia Oleksii Kuchiav, direttore di Nvidia dopo la formazione, Ha detto in x In risposta a una domanda che gli ho inviato: “12b hanno potato 9b, in particolare per adattarsi all’A10, una popolare opzione GPU per la distribuzione. È anche un modello ibrido che lo rende più veloce di un’elaborazione delle dimensioni della parte più grande e più veloce di un modello di trasformatore di dimensioni simili. “
Per il contesto, molti LLM principali sono nell’intervallo di oltre 70 miliardi di parametri (i parametri di richiamo esaminano le impostazioni interne che gestiscono il comportamento del modello, più generalmente più grandi e più capaci, ma più calcoli mostra un modello intensivo).
Ai Stroops sui limiti di ridimensionamento
I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:
- Trasformare l’energia in un vantaggio strategico
- Architetto efficiente deduzione per guadagni di resa reale
- Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili
Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo
Il modello si occupa di molte lingue, tra cui coreano, portoghese, russo e cinese, in inglese, tedesco, spagnolo, francese, italiano, giapponese e ampliato. Adatto per entrambi Monitoraggio delle istruzioni e creazione di codice.
Nemotron-Nano-9b-V2 E Cluster di dati di pre -allenamento Attualmente, può essere utilizzato sulla faccia abbracciata e sul catalogo modello dell’azienda.
Una fusione di trasformatore e architettura Mamba
Questo Nemotron-HUn certo numero di modelli ibridi di trasformatore MAMBA che costituiscono la base delle ultime offerte dell’azienda.
Sebbene gli LLM più popolari siano puri modelli “Transformers” basati interamente sugli strati di attenzione, possono essere costosi e calcolati in memoria man mano che le lunghezze dell’array crescono.
Invece, modelli di nemotron-H e altri Architettura Mamba sviluppata dai ricercatori Alla Carnegie Mellon University e Princeton Knitting in Space Models (o SSMS) che possono includere sequenze di informazioni molto lunghe preservando la situazione.
Questi strati sono ridimensionati linearmente con la lunghezza dell’array e i contesti possono mantenere lo standard stesso molto più lungo della stessa memoria e calcolare il carico aggiuntivo.
AhYbrid Mamba-Traransformer riduce questi costi modificando la maggior parte dell’attenzione con strati di spazio a tempo lineare, ottenendo 2-3 × maggiore efficienza in contesti lunghi. precisione comparabile.
Oltre a Nvidia, altri laboratori AI, come AI2, hanno anche pubblicato modelli basati sull’architettura MAMBA.
Ragionamento/trasferimento usando la lingua
Nemotron-Nano-9B-V2 è addestrato da zero, il testo è posizionato solo come chat di testo e modello di ragionamento.
. Il sistema fa una traccia di ragionamento prima di dare una risposta finale, ma gli utenti possono cambiare questo comportamento. /Pensiero attraverso semplici monete di controllo come Thought o /No_think.
Anch’io sono il modelloNTroduces Time di lavoro “Budget di pensiero”Quale Consente agli sviluppatori di limitare il numero di monete Il modello è dedicato al ragionamento interno prima di completare una risposta.
Questo meccanismo mira a bilanciare l’accuratezza con il ritardo, Soprattutto in applicazioni come l’assistenza clienti o i rappresentanti autonomi.
Raccontami una storia promettente
I risultati della valutazione enfatizzano l’accuratezza competitiva rispetto ad altri modelli aperti su piccola scala. Testato in modalità “ragionamento” utilizzando Nemo-Ssills Suite, Nemotron-Nano-9B-V2 ha raggiunto il 72,1 per cento in AIME25.– 97,8 per cento in Math500, 64,0 per cento in GPQAE 71,1 per cento in Livecodebench.
Vengono anche segnalati i decine dei seguenti criteri di insegnamento e lungo contesto: 90,3 per cento in Ifeval, 78,9 per cento nel test del righello 128kE guadagni più piccoli ma misurabili sul confronto BFCL V3 e HLE.
Sul consiglio, Nano-9B-V2 mostra una maggiore precisione di Qwen3-8b, Un punto di confronto comune.

NVIDIA mostra questi risultati con curve di bilancio in termini di accuratezza che mostrano come le prestazioni sono ridimensionate all’aumentare dell’indennità di moneta per il ragionamento. La società suggerisce che un attento controllo del budget può aiutare gli sviluppatori a ottimizzare sia la qualità che il ritardo nell’uso della produzione.
Addestrato su cluster di dati sintetici
Sia il modello Nano che la famiglia Nemotron-H si basano su una miscela di dati di curatore, fonte web e di educazione sintetica.
Corpora include testo generale, codice, matematica, scienza, documenti legali e finanziari, nonché cluster di dati in stile allineamento.
Nvidia conferma l’uso di cicatrici di ragionamento sintetico prodotte da altri principali modelli per rafforzare le prestazioni in criteri complessi.
Uso di laurea e commerciale
Modello Nano-9B-V2, Accordo di licenza modello NVIDIA OpenInfine aggiornato il giugno 2025.
Lo studente è progettato per essere consentito e amichevole. Nvidia, modelli Disponibile in commercio fuori dalla scatolae questo Gli sviluppatori sono liberi di creare e distribuire modelli derivati.
Ancora più importante, NVIDIA non richiede la proprietà di qualsiasi produzione prodotta dal modello, utilizzandolo, lasciando responsabilità e diritti con lo sviluppatore o l’organizzazione.
Per uno sviluppatore aziendale, ciò significa che il modello può essere prodotto immediatamente senza negoziare una licenza commerciale separata o pagare commissioni a seconda delle soglie di utilizzo, dei livelli di reddito o del numero di utenti. A differenza di alcune licenze aperte a strati utilizzate da altri fornitori, non ci sono disposizioni che richiedono una licenza a pagamento quando una società raggiunge una determinata scala.
Tuttavia, l’accordo include varie condizioni che le imprese dovrebbero osservare:
- Ralles: Gli utenti non possono saltare o disabilitare i meccanismi di confronto (chiamati “ringhiera”) dall’applicazione cambiamenti comparabili in conformità con la loro distribuzione.
- Ridistribuzione: I modelli o i derivati di ridotto dovrebbero includere il testo e la citazione della licenza del modello Open NVIDIA (autorizzati con licenza modello Open Nvidia ”).
- Idoneità: Gli utenti dovrebbero rispettare le normative commerciali e le restrizioni (ad es. Leggi sulle esportazioni statunitensi).
- Termini di AI di fiducia: Use, distribuzione responsabile e questioni etiche, incluso NVIDIA, dovrebbe essere compatibile con istruzioni AI affidabili.
- Caso: Se un utente avvia un copyright o un caso di brevetto contro un’altra organizzazione per una violazione del modello, la licenza finirà automaticamente.
Queste condizioni si concentrano sull’uso legale e responsabile piuttosto che su scala commerciale. Le aziende non devono pagare l’autorizzazione aggiuntiva a Nvidia o pagare royalties per creare prodotti, guadagnare denaro o ridimensionare le basi degli utenti. Invece, dovrebbero garantire che le pratiche di distribuzione rispettino gli obblighi di sicurezza, citazione e conformità.
Posizionamento sul mercato
Con Nemotron-Nano-9B-V2, NVIDIA si rivolge agli sviluppatori che necessitano di capacità di ragionamento e bilancio di efficienza di distribuzione su scale più piccole.
Le funzionalità di controllo del budget del tempo di lavoro e di ragionamento sono di fornire una maggiore flessibilità alla gestione dei costruttori di sistemi dalla velocità di risposta.
Pubblicato su Huging Fact e Nvidia’s Model Catalog, Sperimentale e l’integrazione dovevano essere ampiamente accessibili.
Il rilascio del nemotron-9b-V2 di Nvidia continua a concentrarsi sulla produttività e il ragionamento controllabile nei modelli linguistici.
Combinando architetture ibride con nuove tecniche di compressione e formazioneL’azienda offre agli sviluppatori strumenti che cercano di mantenere l’accuratezza riducendo i costi e il ritardo.
Collegamento alla fonte














