NeurIPS produce centinaia di articoli affascinanti ogni anno e una manciata che ripristina abilmente il modo in cui i professionisti pensano alla scalabilità, alla valutazione e alla progettazione del sistema. Gli studi più importanti nel 2025 non riguardavano un unico modello rivoluzionario. Invece, hanno messo in discussione i presupposti di base su cui accademici e aziende hanno tranquillamente fatto affidamento: modelli più grandi significano un ragionamento migliore, RL crea nuove capacità, l’attenzione “si dissolve” e i modelli generativi vengono inevitabilmente memorizzati.
Nel complesso, gli articoli di quest’anno evidenziano un cambiamento più profondo: il progresso dell’IA è ora limitato meno dalla capacità del modello grezzo e più dall’architettura, dalle dinamiche di formazione e dalla strategia di valutazione.
Di seguito è riportato uno sguardo tecnico approfondito a cinque dei documenti NeurIPS 2025 più influenti e al loro significato per chiunque sviluppi sistemi di intelligenza artificiale nel mondo reale.
1. I master stanno convergendo e finalmente abbiamo un modo per misurarli
Carta: Mente alveare artificiale: omogeneità illimitata dei modelli linguistici
Per anni la valutazione LLM si è concentrata sull’accuratezza. Tuttavia, in compiti aperti o ambigui come il brainstorming, la generazione di idee o la sintesi creativa, Non esiste un’unica risposta corretta. Il rischio è invece l’omogeneità: modelli che producono le stesse risposte “sicure” e ad alta probabilità.
Questo articolo introduce Infinity-Chat, un punto di riferimento esplicitamente progettato per misurare la diversità e il pluralismo nella generazione a tempo indeterminato. Invece di valutare le risposte come corrette o errate, misura:
-
Collasso all’interno del modello: Quanto spesso viene ripetuto lo stesso schema?
-
Omogeneità tra modelli: Quanto sono simili gli output dei diversi modelli?
Il risultato è inquietante ma importante: tra architetture e fornitori, i modelli convergono sempre più su risultati simili, anche quando esiste più di una risposta valida.
Perché questo è importante nella pratica?
Per le aziende, questo riformula l’“allineamento” come un compromesso. L’aggiustamento delle preferenze e le restrizioni di sicurezza possono ridurre silenziosamente la diversità e portare i residenti a sentirsi troppo sicuri di sé, prevedibili o parziali nei confronti dei punti di vista dominanti.
Porta via: Se il tuo prodotto si basa su risultati creativi o esplorativi, i parametri della diversità devono essere cittadini di prima classe.
2. L’attenzione non è ancora finita; Una semplice porta cambia tutto
Carta: Attenzione ai modelli linguistici di grandi dimensioni
L’attenzione al trasformatore è stata affrontata come ingegneria integrata. Questo articolo dimostra che non lo è.
Gli autori introducono una piccola modifica architetturale: applicano un cancello sigmoide dipendente dalla query per l’attenzione dopo l’attenzione del prodotto scalare. Questo è tutto. Nessun nucleo esotico, nessun carico utile enorme.
UN.Attraversa dozzine di cicli di formazione su larga scala, inclusi modelli intensivi e misti di esperti (MoE) addestrati su trilioni di token: questa variante controllata:
-
Stabilità migliorata
-
“Distrazioni” ridotte
-
migliorato performance nel contesto lungo
-
Superando costantemente l’attenzione alla vaniglia
Perché funziona?
La porta introduce:
-
nonlinearità nelle uscite attenzionali.
-
Scarsità implicitasoppressione delle attivazioni patologiche
Ciò mette in discussione il presupposto che i problemi di attenzione siano puramente problemi di dati o di ottimizzazione.
Porta via: Alcuni dei maggiori problemi di affidabilità LLM possono essere architetturali, non algoritmici e possono essere risolti con modifiche sorprendentemente piccole.
3. RL è scalabile; se si ridimensiona in profondità, non solo i dati
Carta: Reti a 1.000 livelli per l’apprendimento rinforzato autosupervisionatoG
La saggezza convenzionale dice che l’RL non crescerà bene senza pesanti ricompense o dimostrazioni. Questo articolo rivela che questa ipotesi è incompleta.
Scalando in modo aggressivo la profondità della rete dai tipici livelli da 2 a 5 fino a quasi 1.000 livelli, gli autori dimostrano notevoli guadagni nella RL condizionale target autosupervisionata, con miglioramenti delle prestazioni che vanno da 2X a 50X.
Non è la forza bruta che conta. Abbina la profondità agli obiettivi comparativi, ai regimi di ottimizzazione stabili e alle rappresentazioni condizionali degli obiettivi
Perché tutto ciò è importante oltre la robotica?
Ciò suggerisce che per i sistemi agenti e i flussi di lavoro autonomi, la profondità della rappresentazione – non solo la modellazione dei dati o delle ricompense – può essere una leva fondamentale per la generalizzazione e la scoperta.
Porta via: I limiti di scalabilità di RL possono essere architettonici, non fondamentali.
4. Perché i modelli di diffusione generalizzano anziché memorizzare?
I modelli di diffusione sono in gran parte sovraparametrizzati, ma spesso si generalizzano abbastanza bene. Questo articolo spiega perché.
Gli autori descrivono due diverse tempistiche di formazione:
-
Un luogo dove la qualità della produzione aumenta rapidamente
-
Un altro luogo, molto più lento, in cui avviene la memorizzazione
Ancora più importante, la scala temporale di memorizzazione cresce linearmente con la dimensione del set di dati, creando una finestra in espansione in cui i modelli migliorano senza adattarsi eccessivamente.
Implicazioni pratiche
Ciò riformula le strategie di arresto anticipato e di ridimensionamento del set di dati. La memorizzazione non è inevitabile; È prevedibile e ritardato.
Porta via: La dimensione del set di dati per l’addestramento alla propagazione non solo migliora la qualità ma ritarda anche attivamente l’overfitting.
5. RL migliora le prestazioni di ragionamento, non la capacità di ragionamento
Carta: L’apprendimento per rinforzo promuove davvero il ragionamento nella scuola di specializzazione?
Forse il risultato strategicamente più importante di NeurIPS 2025 è anche quello più stimolante.
Questo articolo verifica rigorosamente se l’apprendimento per rinforzo (RLVR) con ricompense verificabili ha veramente successo. crea Nel Master si sviluppano nuove capacità di ragionamento o si rimodellano quelle già esistenti.
La loro conclusione: RLVR migliora principalmente l’efficienza del campionamento, non la capacità di ragionamento. Nel caso di campioni di grandi dimensioni, il modello base di solito contiene già le traiettorie di ragionamento corrette.
Cosa significa questo per i percorsi formativi LLM?
RL è meglio inteso come segue:
-
Un meccanismo che modella la distribuzione
-
Non un creatore di abilità fondamentalmente nuove
Porta via: Per espandere veramente la capacità di ragionamento, la RL probabilmente deve essere abbinata a meccanismi come la distillazione degli insegnanti o i cambiamenti architettonici; Non dovrebbe essere usato da solo.
Il quadro generale: il progresso dell’intelligenza artificiale si sta limitando ai sistemi
Nel loro insieme, questi articoli puntano a un tema comune:
Il collo di bottiglia nell’intelligenza artificiale moderna non è più la dimensione grezza del modello, ma la progettazione del sistema.
-
Il collasso della diversità richiede nuovi parametri di valutazione
-
I bug di attenzione richiedono correzioni architetturali
-
Il ridimensionamento RL dipende dalla profondità e dalla rappresentazione
-
La memorizzazione dipende dalla dinamica dell’allenamento, non dal numero di parametri
-
I vantaggi del ragionamento dipendono non solo dall’ottimizzazione, ma anche da come vengono modellate le distribuzioni
Il messaggio per i costruttori è chiaro: il vantaggio competitivo si sta spostando da “chi ha il modello più grande” a “chi capisce il sistema”.
Maitreyi Chatterjee è un ingegnere informatico.
Devansh Agarwal attualmente lavora come ingegnere di machine learning presso FAANG.
