Nous ResearchMartedì la startup di intelligenza artificiale con sede a San Francisco ha rilasciato un sistema di ragionamento matematico open source. Nomos 1 Raggiungere prestazioni umane quasi d’élite quest’anno Concorso di matematica William Lowell PutnamUna delle competizioni matematiche universitarie più prestigiose e stimolanti al mondo.
Putnam è nota per la sua difficoltà: anche se il punteggio perfetto è 120, il punteggio più alto quest’anno è stato 90 e la media è stata appena 2. Nomos 1, al contrario, ha ricevuto 87 punti; un risultato che, secondo la società, lo collocherebbe al secondo posto su 3.988 partecipanti al concorso del 2024.
Questa versione segna un punto di svolta nella corsa in rapida crescita per creare sistemi di intelligenza artificiale capaci di ragionamenti matematici complessi. A differenza dei modelli massicci e ad alta intensità di calcolo implementati dalle grandi aziende tecnologiche, Nomos 1 raggiunge i suoi risultati con un’architettura relativamente compatta: 30 miliardi di parametri, di cui circa 3 miliardi attivi in qualsiasi momento, utilizzando l’esperto design ibrido di Alibaba Modello Qwen3.
"Questo punteggio è 2/3988 nel 2024. sarà il prossimo e segnerà il nostro primo passo verso la creazione di un matematico SOTA AI con Hillclimb AI." Nous Research annunciato sui social martedì.
Lo stesso modello base ha ottenuto 24 punti senza la formazione esperta di Nous Research
Forse la cosa più sorprendente è la differenza. Nomos 1 e il suo modello base. Quando Nous Research funzionava allo stesso modo Modello Qwen3-30B-A3B-Thinking-2507 Ha ottenuto solo 24 punti su 120 attraverso lo stesso sistema di test; Questo risultato evidenzia l’importanza fondamentale dell’ottimizzazione post-addestramento e delle tecniche di ragionamento specifiche su scala del modello grezzo.
"Nomos 1 ha ottenuto 87/120 con 8 punteggi perfetti." L’azienda ha dichiarato che c’era una differenza di prestazioni "in gran parte dovuto alla post-formazione e alla qualità dei dati piuttosto che allo sfruttamento."
I risultati sono stati convalidati tramite valutazione cieca da parte di un esperto umano che si era precedentemente classificato tra i primi 200 a Putnam. Nous Research Ha fornito gli invii anonimizzati al selezionatore, quindi ha pubblicato il set completo di file deanonimizzati e i runbook utilizzati per crearli su GitHub.
Perché il concorso Putnam è considerato la prova definitiva del ragionamento matematico?
Concorso di matematica William Lowell Putnam Si tratta di una competizione annuale di matematica per studenti universitari iscritti a istituti di istruzione superiore negli Stati Uniti e in Canada. È considerata la competizione matematica a livello universitario più prestigiosa al mondo.
La notoriamente brutale competizione di matematica William Lowell Putnam è più un evento sportivo matematico che un test accademico. L’esame consiste in due sessioni di 3 ore ciascuna separate da una pausa di 2 ore. Ci sono un totale di 12 domande, 6 delle quali verranno risolte in ogni sessione. Ogni domanda vale 10 punti e vale 120 punti in totale.
Le domande Putnam non sono del tipo che incontriamo nei normali esami o nei libri di testo. Sono più simili a enigmi che a calcoli e spesso richiedono agli studenti di trovare modi diversi di rappresentare gli oggetti prima di scoprire una soluzione.
Quasi 4.000 studenti in tutto il continente hanno scritto a Putnam l’anno scorso. Il 61% ha segnato tre o meno. Società Matematica d’Americaorganizzatore del concorso. Il punteggio più alto è stato 90 su 120.
Molti Putnam Fellow sono diventati illustri ricercatori in matematica e in altri campi; questi includono tre medaglie Fields, John Milnor, David Mumford e Daniel Quillen, e due vincitori del Premio Nobel per la fisica, Richard Feynman e Kenneth Wilson.
All’interno del sistema di ragionamento a due stadi che alimenta le scoperte matematiche di Nomos 1
Nomos 1 Una specialità di Qwen Qwen3-30B-A3B-Modello pensanteOttimizzato per la risoluzione di problemi matematici in linguaggio naturale e la scrittura di prove. Sviluppato in collaborazione con il sistema. IA dell’arrampicata in collina.
Ciò che differenzia Nomos 1 dalla semplice inferenza del modello è il suo hardware di ragionamento avanzato, un framework open source che orchestra il modo in cui il modello affronta e risolve i problemi. L’imbracatura si svolge in due fasi distinte entro un limite di tempo di tre ore, riflettendo la vera struttura della competizione Putnam.
Nella fase di risoluzione, i lavoratori paralleli risolvono i problemi simultaneamente utilizzando un sistema basato sulle priorità. Ogni dipendente sceglie un problema, crea un invio e quindi assegna un punteggio al proprio lavoro su una scala da 1 a 7. Ai problemi con punteggi almeno perfetti viene data la priorità, consentendo al sistema di concentrare il calcolo sulle sfide più difficili. Questo processo continua fino a quando tutti i problemi raggiungono i punteggi perfetti in base al numero target di autocritiche o fino allo scadere del tempo.
La fase di finalizzazione inizia 15 minuti prima del tempo limite (o al 50% per tirature più brevi) e utilizza un processo di selezione in due fasi. Innanzitutto, una fase di fusione raggruppa le proposte in base al risultato e tenta di determinare il gruppo corretto; Ancora più importante, non deve essere il gruppo di maggioranza. Un doppio torneo a eliminazione diretta determina quindi la presentazione finale per ciascun problema.
"Il nostro sistema di ragionamento open source consiste in una fase di risoluzione in cui i lavoratori tentano di risolvere almeno un problema e si autovalutano, quindi una fase di finalizzazione che combina gli invii per selezionare un invio finale per ciascun problema." Nous Research spiegato.
Confronto di Nomos 1 con i sistemi di intelligenza artificiale matematica di DeepSeek, Google e OpenAI
I risultati di Nomos 1 arrivano in un momento di progressi nel ragionamento matematico e nell’intelligenza artificiale. Il modello di DeepSeek, DeepSeekMath-V2Ha ottenuto un punteggio di 118 su 120 alle domande del concorso di matematica William Lowell Putnam del 2024, superando il punteggio umano più alto di 90. Il modello si è esibito anche al livello dei vincitori della medaglia d’oro alle Olimpiadi internazionali di matematica.
Quest’anno Google è avanzato Modelli Gemelli Eseguendo end-to-end in linguaggio naturale, vengono prodotte dimostrazioni matematiche precise direttamente dalle definizioni formali dei problemi, il tutto entro il limite di tempo della competizione di 4,5 ore. Hanno raggiunto il risultato di quest’anno utilizzando una versione migliorata. I Gemelli pensano profondamente.
Ciò che rende notevole il successo del Nomos 1 non sono le prestazioni grezze (non raggiungono i 118/120 di DeepSeek), ma piuttosto la sua accessibilità ed efficienza. Con 30 miliardi di parametri, di cui solo 3 miliardi attivi, il modello può funzionare su hardware di livello consumer; Ciò è in netto contrasto con gli enormi cluster informatici richiesti da OpenAI e dai modelli pionieristici di Google.
Hermes 4.3 è arrivato solo sei giorni fa, addestrato su una rete blockchain decentralizzata
L’annuncio di Nomos 1 arriva subito dopo il rilascio di Nous Research il 3 dicembre. Hermes 4.3un modello linguistico di uso generale, che segna un’altra pietra miliare importante per l’azienda.
Hermes 4.3, basato su ByteDance Modello Seed-OSS-36B-BaseÈ il primo modello di produzione che Nous Research ha formato interamente nel suo settore. soulnet — Un’infrastruttura di formazione distribuita che utilizza un nuovo ottimizzatore chiamato DisTrO per coordinare la formazione tra i nodi sparsi nei data center su Internet aperta, protetta dal consenso sulla blockchain di Solana.
Azienda addestrata Hermes 4.3 sia i tradizionali metodi centralizzati che soulnetspecificamente per verificare che la formazione distribuita possa eguagliare o superare le prestazioni centralizzate per i carichi di lavoro di produzione. L’azienda ha riferito che la versione addestrata a Psiche ha sovraperformato la versione centralizzata in una serie di attività secondarie.
"La corsa di addestramento è stata coerente con una distribuzione media di 144.000 monete al secondo su 24 nodi Psyche." Nous Research ha affermato. "Utilizzando la strategia collettiva sovrapposta di DiTrO, tutte le comunicazioni P2P sono state offuscate per tutta la durata della formazione, raggiungendo un’efficienza equivalente alla formazione centralizzata tradizionale."
Hermes 4.3 Ha inoltre ottenuto risultati all’avanguardia su RefusalBench, un nuovo benchmark che misura la disponibilità di un modello a fornire assistenza in una varietà di scenari in cui è comunemente vincolato da altri modelli. Il modello ha risposto al 74,60% delle domande di RefusalBench in modalità controintuitiva, superando il suo predecessore Hermes 4 70B (59,50%) e modelli sigillati come Grok 4 (51,30%) e Gemini 2.5 Pro (24,23%).
Piccoli modelli dotati di formazione intelligente stanno colmando il divario rispetto ai giganti da trilioni di parametri
Insieme, i due rilasci in una sola settimana segnalano la scommessa strategica di Nous Research: modelli più piccoli ed efficienti con tecniche post-formazione avanzate e sistemi di ragionamento possono competere, e in alcuni casi superare, modelli massicci sviluppati da rivali con maggiori finanziamenti.
Le implicazioni per i decisori aziendali sono significative. Le capacità di ragionamento matematico hanno applicazioni ben oltre le competizioni accademiche: sono essenziali per la verifica formale, la dimostrazione di teoremi, la modellazione scientifica, l’analisi crittografica e qualsiasi campo che richieda un’inferenza logica rigorosa.
La natura open source di entrambe le versioni: Nomos 1 è disponibile su Hugging Face con la licenza Apache 2.0. hardware di ragionamento completo su GitHub — significa che le organizzazioni possono implementare queste funzionalità sulla propria infrastruttura senza la necessità di chiamate API ai principali fornitori di servizi cloud.
"Per la prima volta, chiunque può assumere o avere accesso a un matematico AI all’avanguardia." Un osservatore lo ha notato sui social media. "Ciò riduce le barriere alla ricerca matematica seria, alla verifica delle dimostrazioni, alla modellizzazione di sistemi complessi e al ragionamento avanzato."
I contributori a Nomos 1 includono Roger Jin, che dirige la formazione; Jeffrey Quesnelle e Dakota Mahan hanno costruito l’infrastruttura; Chen Guang ha dato consigli; e Ryan Teknium e Jeffrey Quesnelle forniscono la leadership. Il modello è stato sviluppato con il contributo di Hillclimb AI e di un team di esperti di matematica, tra cui Samuel Kim, Miron Yurkevich e altri.
La corsa per formare matematici dotati di intelligenza artificiale sta accelerando più velocemente di quanto ci si aspettasse
86° Concorso Putnam Si è svolto sabato 6 dicembre 2025, appena tre giorni prima che Nous Research pubblicasse Nomos 1. I tempi sottolineano la rapidità con cui il campo sta avanzando: le aziende stanno ora lanciando sistemi di intelligenza artificiale matematica in grado di fornire prestazioni umane quasi d’élite entro pochi giorni dalle sfide per cui erano state progettate.
La concorrenza nell’intelligenza artificiale matematica si è intensificata notevolmente negli ultimi mesi. A luglio, una versione migliorata Modello Gemini di Google DeepMind e un modello di ragionamento empirico OpenAI entrambi hanno ottenuto lo status Gold entro l’IMO 2025. Il nuovo modello di DeepSeek Hanno eguagliato le loro prestazioni risolvendo 5 problemi su 6.
Tuttavia, i requisiti in termini di risorse per questi sistemi di confine rimangono proibitivi per la maggior parte delle organizzazioni. Si stima che o1-pro di OpenAI abbia più di 1,8 trilioni di parametri; Gemini 2.5 Pro di Google supera probabilmente i 400 miliardi. Nomos 1, al contrario, raggiunge risultati competitivi con una frazione di questa impronta.
Il divario tra i massicci modelli di frontiera e le efficaci alternative open source si sta riducendo. E per le organizzazioni che necessitano di capacità di ragionamento matematico e che non dispongono del budget per l’elaborazione su vasta scala, il divario potrebbe essersi ridotto abbastanza da diventare significativo.
Come un osservatore mettilo sui social: "Ciò segna un significativo passo avanti per i modelli matematici di intelligenza artificiale sufficientemente piccoli da poter essere eseguiti sul tuo laptop."
È un laptop che ora può surclassare quasi 4.000 dei migliori matematici universitari del continente.















