L’Allen Institute for Artificial Intelligence (Ai2) ha recentemente rilasciato quello che definisce il più potente ancora modello della famiglia Olmo 3. Ma l’azienda ha continuato a ripetere i modelli, espandendo i propri sforzi di apprendimento per rinforzo (RL) per creare Olmo 3.1.

I nuovi modelli Olmo 3.1 puntano su efficienza, trasparenza e controllo per le imprese.

Ai2 ha aggiornato due delle tre versioni dell’Olmo 2: il modello di punta Olmo 3.1 Think 32B, ottimizzato per la ricerca avanzata, e l’Olmo 3.1 Instruct 32B, progettato per seguire istruzioni, dialoghi multi-round e utilizzo di strumenti.

Olmo 3 ha una terza versione, Olmo 3-Base, per la programmazione, la comprensione e la matematica. Funziona bene anche per continuare a modificare.

Per aggiornare l’Olmo 3 Think 32B all’Olmo 3.1, Ai2 ha affermato che i suoi ricercatori hanno esteso la sua migliore corsa RL con un programma di allenamento più lungo.

“Dopo il lancio originale dell’Olmo 3, abbiamo continuato il nostro impegno di formazione RL per l’Olmo 3 32B Think, con altri 21 giorni di formazione su 224 GPU con epoche extra sul nostro set di dati Dolci-Think-RL”, ha affermato Ai2. articolo del blog. “Ciò ha consentito a Olmo 3.1 32B Think di ottenere miglioramenti significativi nei benchmark di matematica, ragionamento e rispetto delle istruzioni: oltre 5 punti in AIME, oltre 4 punti in ZebraLogic, oltre 4 punti in IFEval e oltre 20 punti in IFBench, oltre a prestazioni più elevate nella codifica e in attività complesse in più fasi.”

Per arrivare all’Olmo 3.1 Instruct, Ai2 ha affermato che i suoi ricercatori hanno applicato la ricetta dietro l’Instruct più piccolo, dimensione 7B, al modello più grande.

Olmo 3.1 Istruzione 32B "Ai2 è ottimizzato per chat, utilizzo di strumenti e dialoghi a più round; “Ciò lo rende un fratello molto più performante dell’Olmo 3 Instruct 7B e pronto per le applicazioni del mondo reale.” Pubblica su X.

Nuovi checkpoint sono attualmente disponibili in Ai2 Playground o Hugging Face, con l’accesso API in arrivo.

Migliori prestazioni nei benchmark

I modelli Olmo 3.1 hanno ottenuto buoni risultati nei test benchmark e prevedibilmente hanno sovraperformato i modelli Olmo 3.

L’Olmo 3.1 Think ha sovraperformato i modelli Qwen 3 32B e si è comportato vicino al Gemma 27B nel benchmark AIME 2025.

Olmo 3.1 Instruct ha ottenuto ottimi risultati rispetto ai suoi colleghi open source; Nel confronto matematico ha addirittura superato modelli come Gemma 3.

“Per quanto riguarda Olmo 3.1 32B Instruct, è un modello su larga scala, ottimizzato per le istruzioni, progettato per chat, utilizzo di strumenti e dialogo multidirezionale. Olmo 3.1 32B Instruct è il nostro modello di chat più capace e completamente aperto fino ad oggi e, secondo le nostre valutazioni, il nostro modello di istruzioni su scala 32B più potente e completamente aperto”, ha affermato la società.

Ai2 ha anche aggiornato i modelli RL-Zero 7B per la matematica e la codifica. Sulla X, entrambi i modelli beneficiano di cicli di allenamento più lunghi e coerenti, ha affermato la società.

Impegno per la trasparenza e l’open source

Ai2 aveva precedentemente dichiarato a VentureBeat di aver progettato la famiglia di modelli Olmo 3 per offrire alle aziende e ai laboratori di ricerca maggiore controllo e comprensione dei dati e della formazione inseriti nel modello.

Le organizzazioni possono aggiungere elementi al mix di dati del modello e riqualificarlo per ottenere informazioni dettagliate da ciò che viene aggiunto.

Questo è da tempo un impegno per Ai2, che ha introdotto anche un’offerta. Strumento chiamato OlmoTrace Monitoraggio del modo in cui i risultati LLM corrispondono ai dati di formazione.

“Insieme, Olmo 3.1 Think 32B e Olmo 3.1 Instruct 32B dimostrano che apertura e prestazioni possono andare insieme. Estendendo lo stesso flusso del modello, continuiamo a migliorare le capacità mantenendo la trasparenza end-to-end su dati, codice e decisioni di formazione”, ha affermato Ai2.

Collegamento alla fonte