Nous Researchiniziativa di intelligenza artificiale open source sostenuta da una società di criptovaluta paradigmaLunedì ha rilasciato un nuovo modello di programmazione competitivo che, a quanto pare, corrisponde o supera diversi importanti sistemi proprietari: è stato addestrato in soli quattro giorni utilizzando gli ultimi 48 sistemi proprietari di Nvidia. Processori grafici B200.

Modello chiamato NousCoder-14BÈ un altro ingresso nell’affollato campo degli assistenti di codifica AI, ma arriva in un momento particolarmente emozionante: Codice ClaudioLo strumento di programmazione dell’agenzia Rival Anthropic ha dominato le discussioni sui social media dall’inizio dell’anno con i post dei suoi sviluppatori. senza fiato riferimenti sulle loro capacità. Gli sviluppi simultanei sottolineano la rapidità con cui si sta evolvendo lo sviluppo di software basato sull’intelligenza artificiale e l’accanimento con cui aziende grandi e piccole competono per raggiungere quella che molti credono sarà la tecnologia fondamentale nella scrittura di software.

medicinale: input incorporato in linea ID: 74cSyrq6OURp9SEQ5zOUSl

NousCoder-14B Raggiunge un tasso di precisione del 67,87%. LiveCodeBench v6Una valutazione standardizzata che testa modelli di problemi di programmazione competitiva, pubblicata tra agosto 2024 e maggio 2025. Questa cifra rappresenta un miglioramento di 7,08 punti percentuali rispetto ad Alibaba, il modello base su cui è stato addestrato. Qwen3-14BLo afferma la relazione tecnica di Nous Research pubblicata insieme al comunicato.

"Ho dato a Claude Code la descrizione del problema e nel giro di un’ora ha creato ciò che avevamo creato l’anno scorso." appartenere aL’ingegnere capo di Google responsabile dell’API Gemini ha dichiarato in un post virale la scorsa settimana che ha catturato l’umore prevalente in X sugli strumenti di codifica dell’intelligenza artificiale. Dogan stava descrivendo il sistema di orchestrazione degli agenti distribuiti che il suo team ha impiegato un anno a sviluppare; Un sistema in cui il Codice Claude viene indovinato da un prompt di tre paragrafi.

Il confronto è istruttivo: mentre Claude Code di Anthropic ha catturato l’immaginazione con le sue dimostrazioni di sviluppo software end-to-end, Nous Research ritiene che le alternative open source basate su problemi verificabili possano colmare il divario e che la trasparenza su come questi modelli vengono costruiti sia importante quanto il talento grezzo.


In che modo Nous Research ha creato un modello di codifica AI che chiunque può copiare?

Ciò che distingue NousCoder-14B La caratteristica fondamentale che emerge dagli annunci di molti concorrenti è la loro radicale apertura. Nous Research non ha solo pubblicato: pesi del modello Ma ambiente di apprendimento completamente rafforzatopacchetto comparativo e cintura da allenamento: costruiti sulle fondamenta dell’azienda Quadro di Atropo – qualsiasi ricercatore con sufficienti conoscenze informatiche riprodurre o ampliare l’opera.

"La natura open source dello stack Atropos fornisce l’infrastruttura necessaria per la ricerca sul ragionamento riproducibile a livello olimpico," Un osservatore a X ha sottolineatoNe sottolinea l’importanza per le comunità accademiche e open source.

Addestrato per modello Joe LeeÈ un ricercatore residente presso Nous Research ed ex programmatore competitivo. Li relazione tecnica rivela una dimensione inaspettatamente personale: ha paragonato la traiettoria di sviluppo del modello al proprio viaggio sulla piattaforma di programmazione competitiva Codeforces, dove i partecipanti guadagnano valutazioni in base alle loro prestazioni nella competizione.

Sulla base di stime approssimative che abbinano i punteggi di LiveCodeBench alle valutazioni di Codeforces, Li ha calcolato che il miglioramento di NousCoder-14B dall’intervallo di valutazione di circa 1600-1750 all’intervallo di valutazione di 2100-2200 riflette un salto che ha richiesto quasi due anni di pratica costante tra i 14 e i 16 anni. Il modello ha raggiunto l’equivalente in quattro giorni.

"Guardare l’ultima prova pratica è stata un’esperienza piuttosto surreale." Li ha scritto nella relazione tecnica.

Ma Li si è affrettato a notare un avvertimento importante che tocca questioni più ampie sull’efficacia dell’intelligenza artificiale: in questi due anni, ha risolto circa 1.000 problemi, mentre il modello ne aveva bisogno di 24.000. Gli esseri umani rimangono, almeno per ora, studenti molto più efficienti dell’esempio.


All’interno del sistema di apprendimento per rinforzo che fornisce formazione su 24.000 problemi di programmazione competitiva

NousCoder-14BIl processo di formazione offre una finestra sulle tecniche sempre più sofisticate che i ricercatori utilizzano per migliorare le capacità di ragionamento dell’intelligenza artificiale attraverso l’apprendimento per rinforzo.

L’approccio si basa su ciò che i ricercatori chiamano "ricompense verificabili" — un sistema in cui il modello genera soluzioni di codice, queste soluzioni vengono eseguite secondo casi di test e il modello riceve un semplice segnale binario (vero o falso). Questo ciclo di feedback, sebbene concettualmente semplice, richiede l’implementazione di un’infrastruttura significativa su larga scala.

È stata utilizzata la ricerca Nous modaleUna piattaforma di cloud computing per l’esecuzione parallela di codice in modalità sandbox. Ciascuno dei 24.000 problemi di training contiene una media di centinaia di casi di test e il sistema deve verificare che il codice generato produca output corretti entro limiti di tempo e di memoria (rispettivamente 15 secondi e 4 gigabyte).

Nella formazione è stata utilizzata la seguente tecnica: DAPO (ottimizzazione della politica di campionamento dinamico)I ricercatori hanno scoperto che ha funzionato leggermente meglio delle alternative nei loro esperimenti. Una novità significativa comprende: "campionamento dinamico" – scartare esempi di training in cui il modello risolve tutti i tentativi o fallisce tutti i tentativi, perché non forniscono un segnale di gradiente utile per l’apprendimento.

Anche i ricercatori hanno adottato "estensione del contesto ricorsiva," Per prima cosa addestra il modello con una finestra di contesto di 32.000 monete prima di espanderlo a 40.000 monete. L’espansione del contesto a circa 80.000 token durante la valutazione ha prodotto i risultati migliori, con una precisione che ha raggiunto il 67,87%.

Forse la cosa più importante è che il processo di formazione si sovrappone all’inferenza e alla verifica; Una volta che il modello produce una soluzione, inizia a lavorare sul problema successivo mentre viene verificata la soluzione precedente. Questa pipeline, combinata con il training asincrono in cui più istanze del modello vengono eseguite in parallelo, massimizza l’utilizzo dell’hardware su costosi cluster GPU.


L’imminente crisi dei dati potrebbe rallentare il progresso del modello di codifica dell’intelligenza artificiale

Fu sepolto accanto a Li relazione tecnica Una scoperta con importanti implicazioni per il futuro dello sviluppo dell’intelligenza artificiale: il set di dati di addestramento di NousCoder-14B include: "Una parte significativa di tutti i problemi di programmazione competitiva già pronti e verificabili si trovano in un formato di set di dati standardizzato."

In altre parole, per questo particolare campo, i ricercatori si stanno avvicinando ai limiti dei dati di formazione di alta qualità.

"Il numero totale di problemi di programmazione competitiva su Internet ha più o meno la stessa dimensione," Ha scritto Li, riferendosi ai 24.000 problemi utilizzati per la formazione. "Ciò dimostra che ci stiamo avvicinando ai limiti dei dati di alta qualità nello spazio di programmazione competitivo."

Questa osservazione riflette la crescente preoccupazione per le limitazioni dei dati nel settore dell’intelligenza artificiale. Poiché l’informatica continua a crescere secondo principi economici e ingegneristici ben compresi, i dati di addestramento "sempre più finito," Come ha detto Li.

"Sembra che alcune delle ricerche più importanti da svolgere in futuro riguarderanno le aree della generazione di dati sintetici e degli algoritmi e delle architetture efficienti in termini di dati." Ha concluso.

Questa sfida è particolarmente seria per la programmazione competitiva perché il dominio richiede problemi con soluzioni corrette conosciute che possono essere verificate automaticamente. A differenza dei compiti in linguaggio naturale, dove sono sufficienti la valutazione umana o le misurazioni proxy, il codice funziona oppure no; Ciò rende molto difficile la generazione di dati sintetici.

Li ha identificato un potenziale percorso: addestrare modelli non solo per risolvere problemi ma anche per generare problemi risolvibili, consentendo una forma di gioco autonomo simile alle tecniche che si sono dimostrate efficaci nei sistemi di intelligenza artificiale di gioco. "Una volta risolta la generazione sintetica del problema, il gioco personale diventa una direzione molto interessante." ha scritto.


Una scommessa da 65 milioni di dollari affinché l’IA open source possa competere con le Big Tech

Nous Research ha raggiunto una posizione unica nel campo dell’intelligenza artificiale: un’azienda impegnata versioni open source Alternative che competono e talvolta superano le alternative proprietarie.

azienda aggiornata $ 50 milioni nell’aprile 2025 In un round guidato da Paradigm, una startup focalizzata sulla criptovaluta fondata dal co-fondatore di Coinbase Fred Ehrsam. Secondo alcuni rapporti, il finanziamento totale ha raggiunto i 65 milioni di dollari. L’investimento riflette il crescente interesse per gli approcci decentralizzati alla formazione sull’intelligenza artificiale sviluppati da Nous Research. piattaforma dell’anima.

Le versioni precedenti includono: Ermes 4Una famiglia modello che segnaliamo "supera ChatGPT senza restrizioni sui contenuti," e DeepHermes-3, che la società ha identificato per prima "modello di ragionamento transitivo" — consente agli utenti di abilitare capacità di pensiero estese su richiesta.

L’azienda ha costruito un’estetica e una comunità distintive, portando ad alcuni dubbi sul fatto che lo stile possa eclissare la sostanza. "Ofc crederò in una compagnia di anime pfp. smettila di benchmarkmaxxing ffs," Un recensore ha scritto di XFa riferimento al marchio in stile anime di Nous Research e alla pratica industriale di ottimizzazione delle prestazioni dei benchmark.

Altri hanno sollevato questioni tecniche. "Nemotron è migliore in confronto," Un commentatore ha notato che si riferiva alla famiglia di modelli linguistici di Nvidia. Ha chiesto se c’era qualcun altro NousCoder-14B così "focalizzato sull’agente o semplicemente codifica “one-shot”." – una distinzione importante per lo sviluppo pratico del software, dove l’iterazione del feedback spesso produce risultati migliori rispetto ai singoli tentativi.


Ciò che i ricercatori dicono deve accadere in futuro affinché gli strumenti di codifica dell’intelligenza artificiale continuino a migliorare

Il comunicato include diverse direzioni per il lavoro futuro che suggeriscono dove potrebbe andare la ricerca sulla codifica dell’intelligenza artificiale.

L’apprendimento per rinforzo multi-round è in cima alla lista. Attualmente, il modello riceve solo una ricompensa binaria finale (superato o fallito) solo dopo aver generato una soluzione. Ma i problemi di programmazione competitiva spesso coinvolgono casi di test comuni che forniscono feedback intermedi: errori di compilazione, output errati, violazioni dei limiti di tempo. I modelli di formazione che incorporano questo feedback in più prove possono migliorare significativamente le prestazioni.

Anche il controllo della lunghezza della risposta rimane una sfida. I ricercatori hanno scoperto che le soluzioni errate tendevano ad essere più lunghe di quelle corrette e che la lunghezza delle risposte riempiva rapidamente le finestre di contesto disponibili durante la formazione; Questo è uno schema che vari cambiamenti algoritmici non sono riusciti a risolvere.

Forse in modo più assertivo, Li ha suggerito: "creare problemi e giocare con se stessi" — modelli di formazione sia per risolvere che per creare problemi di programmazione. Ciò risolverà direttamente il problema della scarsità di dati consentendo ai modelli di creare i propri programmi di formazione.

"Le persone sono brave a generare problemi interessanti e utili per altri programmatori competitivi, ma sembra che ci sia ancora un divario significativo nelle capacità LLM nella creazione di problemi creativi." Li ha scritto.

Modello: Disponibile ora su Hugging Face È sotto licenza Apache 2.0. Per ricercatori e sviluppatori che vogliono migliorare il lavoro, Nous Research ha pubblicato lo studio completo. Stack di addestramento di Atropo accanto a te.

Ciò che Li ha ottenuto in due anni di dedizione adolescenziale, passando da un principiante di livello 1600 a un concorrente di 2100 in Codeforces, è stata la clonazione di un’intelligenza artificiale in 96 ore. Aveva bisogno di 1000 problemi. Il modello ne aveva bisogno di 24.000. Ma presto questi sistemi potranno imparare a scrivere i propri problemi, ad insegnare da soli e a lasciarsi completamente alle spalle i parametri di riferimento umani.

La domanda non è più se le macchine possano imparare a programmare. Importa se diventeranno presto insegnanti migliori di noi.

Collegamento alla fonte