Home Politica Perché l’apprendimento per rinforzo si stabilizza senza profondità di rappresentazione (e altri...

Politica

Perché l’apprendimento per rinforzo si stabilizza senza profondità di rappresentazione (e altri punti chiave di NeurIPS 2025)

17 Gennaio 2026

NeurIPS produce centinaia di articoli affascinanti ogni anno e una manciata che ripristina abilmente il modo in cui i professionisti pensano alla scalabilità, alla valutazione e alla progettazione del sistema. Gli studi più importanti nel 2025 non riguardavano un unico modello rivoluzionario. Invece, hanno messo in discussione i presupposti di base su cui accademici e aziende hanno tranquillamente fatto affidamento: modelli più grandi significano un ragionamento migliore, RL crea nuove capacità, l’attenzione “si dissolve” e i modelli generativi vengono inevitabilmente memorizzati.

Nel complesso, gli articoli di quest’anno evidenziano un cambiamento più profondo: il progresso dell’IA è ora limitato meno dalla capacità del modello grezzo e più dall’architettura, dalle dinamiche di formazione e dalla strategia di valutazione.

Di seguito è riportato uno sguardo tecnico approfondito a cinque dei documenti NeurIPS 2025 più influenti e al loro significato per chiunque sviluppi sistemi di intelligenza artificiale nel mondo reale.

1. I master stanno convergendo e finalmente abbiamo un modo per misurarli

Carta: Mente alveare artificiale: omogeneità illimitata dei modelli linguistici

Per anni la valutazione LLM si è concentrata sull’accuratezza. Tuttavia, in compiti aperti o ambigui come il brainstorming, la generazione di idee o la sintesi creativa, Non esiste un’unica risposta corretta. Il rischio è invece l’omogeneità: modelli che producono le stesse risposte “sicure” e ad alta probabilità.

Questo articolo introduce Infinity-Chat, un punto di riferimento esplicitamente progettato per misurare la diversità e il pluralismo nella generazione a tempo indeterminato. Invece di valutare le risposte come corrette o errate, misura:

Collasso all’interno del modello: Quanto spesso viene ripetuto lo stesso schema?
Omogeneità tra modelli: Quanto sono simili gli output dei diversi modelli?

Il risultato è inquietante ma importante: tra architetture e fornitori, i modelli convergono sempre più su risultati simili, anche quando esiste più di una risposta valida.

Perché questo è importante nella pratica?

Per le aziende, questo riformula l’“allineamento” come un compromesso. L’aggiustamento delle preferenze e le restrizioni di sicurezza possono ridurre silenziosamente la diversità e portare i residenti a sentirsi troppo sicuri di sé, prevedibili o parziali nei confronti dei punti di vista dominanti.

Porta via: Se il tuo prodotto si basa su risultati creativi o esplorativi, i parametri della diversità devono essere cittadini di prima classe.

2. L’attenzione non è ancora finita; Una semplice porta cambia tutto

Carta: Attenzione ai modelli linguistici di grandi dimensioni

L’attenzione al trasformatore è stata affrontata come ingegneria integrata. Questo articolo dimostra che non lo è.

Gli autori introducono una piccola modifica architetturale: applicano un cancello sigmoide dipendente dalla query per l’attenzione dopo l’attenzione del prodotto scalare. Questo è tutto. Nessun nucleo esotico, nessun carico utile enorme.

UN.Attraversa dozzine di cicli di formazione su larga scala, inclusi modelli intensivi e misti di esperti (MoE) addestrati su trilioni di token: questa variante controllata:

Stabilità migliorata
“Distrazioni” ridotte
migliorato performance nel contesto lungo
Superando costantemente l’attenzione alla vaniglia

Perché funziona?

La porta introduce:

nonlinearità nelle uscite attenzionali.
Scarsità implicitasoppressione delle attivazioni patologiche

Ciò mette in discussione il presupposto che i problemi di attenzione siano puramente problemi di dati o di ottimizzazione.

Porta via: Alcuni dei maggiori problemi di affidabilità LLM possono essere architetturali, non algoritmici e possono essere risolti con modifiche sorprendentemente piccole.

3. RL è scalabile; se si ridimensiona in profondità, non solo i dati

Carta: Reti a 1.000 livelli per l’apprendimento rinforzato autosupervisionatoG

La saggezza convenzionale dice che l’RL non crescerà bene senza pesanti ricompense o dimostrazioni. Questo articolo rivela che questa ipotesi è incompleta.

Scalando in modo aggressivo la profondità della rete dai tipici livelli da 2 a 5 fino a quasi 1.000 livelli, gli autori dimostrano notevoli guadagni nella RL condizionale target autosupervisionata, con miglioramenti delle prestazioni che vanno da 2X a 50X.

Non è la forza bruta che conta. Abbina la profondità agli obiettivi comparativi, ai regimi di ottimizzazione stabili e alle rappresentazioni condizionali degli obiettivi

Perché tutto ciò è importante oltre la robotica?

Ciò suggerisce che per i sistemi agenti e i flussi di lavoro autonomi, la profondità della rappresentazione – non solo la modellazione dei dati o delle ricompense – può essere una leva fondamentale per la generalizzazione e la scoperta.

Porta via: I limiti di scalabilità di RL possono essere architettonici, non fondamentali.

4. Perché i modelli di diffusione generalizzano anziché memorizzare?

Carta: Perché i modelli di diffusione non vengono memorizzati: il ruolo della regolazione dinamica implicita nell’istruzione

I modelli di diffusione sono in gran parte sovraparametrizzati, ma spesso si generalizzano abbastanza bene. Questo articolo spiega perché.

Gli autori descrivono due diverse tempistiche di formazione:

Un luogo dove la qualità della produzione aumenta rapidamente
Un altro luogo, molto più lento, in cui avviene la memorizzazione

Ancora più importante, la scala temporale di memorizzazione cresce linearmente con la dimensione del set di dati, creando una finestra in espansione in cui i modelli migliorano senza adattarsi eccessivamente.

Implicazioni pratiche

Ciò riformula le strategie di arresto anticipato e di ridimensionamento del set di dati. La memorizzazione non è inevitabile; È prevedibile e ritardato.

Porta via: La dimensione del set di dati per l’addestramento alla propagazione non solo migliora la qualità ma ritarda anche attivamente l’overfitting.

5. RL migliora le prestazioni di ragionamento, non la capacità di ragionamento

Carta: L’apprendimento per rinforzo promuove davvero il ragionamento nella scuola di specializzazione?

Forse il risultato strategicamente più importante di NeurIPS 2025 è anche quello più stimolante.

Questo articolo verifica rigorosamente se l’apprendimento per rinforzo (RLVR) con ricompense verificabili ha veramente successo. crea Nel Master si sviluppano nuove capacità di ragionamento o si rimodellano quelle già esistenti.

La loro conclusione: RLVR migliora principalmente l’efficienza del campionamento, non la capacità di ragionamento. Nel caso di campioni di grandi dimensioni, il modello base di solito contiene già le traiettorie di ragionamento corrette.

Cosa significa questo per i percorsi formativi LLM?

RL è meglio inteso come segue:

Un meccanismo che modella la distribuzione
Non un creatore di abilità fondamentalmente nuove

Porta via: Per espandere veramente la capacità di ragionamento, la RL probabilmente deve essere abbinata a meccanismi come la distillazione degli insegnanti o i cambiamenti architettonici; Non dovrebbe essere usato da solo.

Il quadro generale: il progresso dell’intelligenza artificiale si sta limitando ai sistemi

Nel loro insieme, questi articoli puntano a un tema comune:

Il collo di bottiglia nell’intelligenza artificiale moderna non è più la dimensione grezza del modello, ma la progettazione del sistema.

Il collasso della diversità richiede nuovi parametri di valutazione
I bug di attenzione richiedono correzioni architetturali
Il ridimensionamento RL dipende dalla profondità e dalla rappresentazione
La memorizzazione dipende dalla dinamica dell’allenamento, non dal numero di parametri
I vantaggi del ragionamento dipendono non solo dall’ottimizzazione, ma anche da come vengono modellate le distribuzioni

Il messaggio per i costruttori è chiaro: il vantaggio competitivo si sta spostando da “chi ha il modello più grande” a “chi capisce il sistema”.

Maitreyi Chatterjee è un ingegnere informatico.

Devansh Agarwal attualmente lavora come ingegnere di machine learning presso FAANG.

Collegamento alla fonte

Perché l’apprendimento per rinforzo si stabilizza senza profondità di rappresentazione (e altri punti chiave di NeurIPS 2025)

1. I master stanno convergendo e finalmente abbiamo un modo per misurarli

Perché questo è importante nella pratica?

2. L’attenzione non è ancora finita; Una semplice porta cambia tutto

Perché funziona?

3. RL è scalabile; se si ridimensiona in profondità, non solo i dati

Perché tutto ciò è importante oltre la robotica?

4. Perché i modelli di diffusione generalizzano anziché memorizzare?

Implicazioni pratiche

5. RL migliora le prestazioni di ragionamento, non la capacità di ragionamento

Cosa significa questo per i percorsi formativi LLM?

Il quadro generale: il progresso dell’intelligenza artificiale si sta limitando ai sistemi

Ultimo post

Errol Spence conferma finalmente che ha intenzione di tornare e affrontare...

IN DIRETTA ORA: Veglia Pasquale dalla Chiesa Parrocchiale di Nostra Signora...

La sorte dell’equipaggio dell’aereo americano F-35 abbattuto dall’Iran

Trump sta preparando un uovo di Pasqua alla Casa Bianca tra...

Anthropic interrompe la possibilità di utilizzare gli abbonamenti Claude con OpenClaw...

Trump ha usato parolacce in nuove minacce per chiedere all’Iran di...

Sole e anni ’60 in vista per il fine settimana di...

FA Cup: Era ora che lo facesse di nuovo, dice Erling...

Come festeggiano il Mese della Terra Disneyland Resort e National Geographic?

Lo showrunner di “Sex and the City” Michael Patrick King pensa...

Dan Hurley di UConn difende Geno Auriemma dopo uno scambio con...

Dai un’occhiata a ciascun ospite del club d’élite “Saturday Night Live”.

Categoria