I ricercatori di Stanford, Nvidia e Together AI hanno sviluppato una nuova tecnica in grado di scoprire nuove soluzioni a problemi molto complessi. Ad esempio, sono riusciti a ottimizzare un core fondamentale della GPU affinché funzioni 2 volte più velocemente rispetto al precedente stato dell’arte scritto da esperti umani.

Tecniche”Prova l’educazione al tempo per esplorare” (TTT-Discover) sfida l’attuale paradigma che consente ai modelli di “pensare più a lungo” per i problemi di ragionamento. TTT-Discover consente al modello di continuare l’addestramento durante il processo di inferenza e aggiornare i suoi pesi in base al problema in questione.

I limiti del ragionamento ‘congelato’

Le attuali strategie di intelligenza artificiale aziendale spesso si basano su: "congelato" modelli. Sia che si utilizzi un modello di ragionamento chiuso o esplicito, i parametri del modello sono statici. Quando dirigi questi modelli, cercano risposte in una varietà fissa di dati di addestramento. Funziona bene per problemi simili a quelli visti in precedenza dal modello.

Tuttavia, i veri problemi di scoperta, come inventare un nuovo algoritmo o dimostrare un nuovo teorema matematico, sono per definizione esterni alla distribuzione. Se la soluzione richiede un salto logico non presente nel set di addestramento, un modello congelato probabilmente fallirà, indipendentemente dalla quantità di calcoli eseguiti durante l’inferenza.

In un commento a VentureBeat, Mert Yüksekgönül, coautore dell’articolo e dottorando a Stanford, ha spiegato questa distinzione con una famosa scoperta matematica:

"Credo che i modelli di pensiero non possano dimostrare, ad esempio, P != NP senza un addestramento basato sui test, proprio come Andrew Wiles non potrebbe dimostrare l’Ultimo Teorema di Fermat senza i 7 anni trascorsi a perseguire questo singolo problema da solo e imparando costantemente dai propri fallimenti."

TTT-Discover tratta il problema del test non come una domanda a cui rispondere, ma come un ambiente da padroneggiare. Mentre il modello tenta di risolvere il problema, produce diversi tipi di dati: fallimenti, successi parziali ed errori. Invece di buttare via questi dati, TTT-Discover li utilizza per aggiornare i pesi del modello in tempo reale, consentendo di fatto al modello di concentrarsi su quella specifica sfida piuttosto che sviluppare un quadro di risoluzione dei problemi molto generale.

Un approccio diverso all’apprendimento per rinforzo

TTT-Discover fornisce un cambiamento fondamentale nel modo in cui vengono addestrati i modelli di ragionamento. Nella formazione standard con apprendimento per rinforzo (RL), l’obiettivo è una politica generale volta al raggiungimento di buone prestazioni in media in molte attività. In TTT-Discover, l’obiettivo è trovare la migliore soluzione a un problema molto specifico e, secondo gli autori, la politica è “uno strumento a tal fine”. Una volta che il modello scopre la struttura (ovvero il codice, la prova o la molecola ottimizzati), la rete neurale che l’ha prodotta può essere scartata.

Per raggiungere questo obiettivo, i ricercatori hanno progettato due componenti specifici che distinguono TTT-Discover dall’apprendimento per rinforzo standard:

  1. scopo entropico: RL standard ottimizza per la ricompensa media prevista. Se un modello tenta un percorso rischioso e fallisce, il RL standard lo penalizza. TTT-Discover ribalta questa situazione. utilizza a "scopo entropico" Ciò rende i risultati ad alta ricompensa esponenzialmente più pesanti. Ciò costringe il modello a ignorare "affidabile," risposte nella media e caccia aggressiva "eureka" valori anomali, soluzioni che difficilmente possono essere trovate ma che offrono una grande ricompensa.

  2. Ricerca PUCT: Il sistema introduce PUCT, un algoritmo di ricerca ispirato agli alberi. AlphaZero. Cerca diverse soluzioni creando un set di dati composto da esperimenti. Il modello quindi si allena su questo set di dati in tempo reale, imparando a riconoscere quali passaggi parziali portano a risultati ad alta ricompensa.

Ancora più importante, questo metodo funziona meglio su problemi con un segnale di ricompensa costante. Il sistema ha bisogno di un modo per misurare il progresso incrementale: "autonomia in microsecondi" O "tasso di errore" invece del file binario "passare/fallire" segnale. Ciò consente al modello di tracciare il miglioramento graduale verso la soluzione ottimale.

Economia della “pesante estrazione”.

Il profilo di costo di TTT-Discover richiede un cambiamento di mentalità per le organizzazioni abituate a pagare meno di un centesimo per chiamata API. Nei loro esperimenti, i ricercatori hanno riferito che una singola fase esplorativa prevedeva circa 50 fasi di formazione e migliaia di implementazioni, per un costo di circa 500 dollari a problema.

TTT-Discover può riguardare “risorse statiche e di alto valore” anziché problemi banali e ricorrenti che possono essere risolti con modelli e approcci esistenti.

Consideriamo un’organizzazione nativa del cloud che esegue una pipeline di dati che elabora petabyte di informazioni ogni notte. Se questa pipeline si basa su una specifica query SQL o su un core GPU, l’ottimizzazione di questo codice anche solo dell’1% potrebbe far risparmiare centinaia di migliaia di dollari in costi di elaborazione annuali. In questo contesto, spendere 500 dollari per trovare un core più veloce del 50% è una spesa banale con un ritorno sull’investimento immediato.

"Ciò ha più senso per le decisioni a bassa frequenza e ad alto impatto in cui un singolo miglioramento vale molto di più del costo di elaborazione." Yüksekgönül ha detto: "Ciò include la guida della catena di approvvigionamento, la progettazione di farmaci e la scoperta dei materiali. In questi ambienti, spendere centinaia di dollari per una singola fase di scoperta può facilmente ripagarsi da solo."

Considerazioni sull’applicazione

Uno dei risultati chiave per l’adozione aziendale è che TTT-Discover non richiede un modello di confine personalizzato. I ricercatori hanno ottenuto risultati all’avanguardia utilizzando gpt-oss-120bIl modello a peso aperto di OpenAI. ricercatori pubblicato il codice TTT-Discover consente a ricercatori e sviluppatori di utilizzarlo per i propri modelli.

Le aziende possono farlo funzionare perché la tecnica funziona con modelli aperti "ciclo esplorativo" interamente all’interno dei propri VPC sicuri o cluster H100 locali, senza inviare i propri dati privati ​​a server di terze parti.

“Se un’azienda conduce già l’apprendimento per rinforzo, non c’è bisogno di infrastrutture aggiuntive”, ha affermato Yüksekgönül. “TTT-Discover utilizza lo stesso stack di training (GPU, rolloutworker, ottimizzatori, checkpoint).”

Se non stanno già eseguendo RL, devono creare questa infrastruttura. Tuttavia, le aziende possono anche utilizzare le soluzioni esistenti per ridurre la complessità del processo. I ricercatori hanno organizzato questi studi educativi utilizzando: API Armeggiare Sviluppata da Thinking Machines, un’API che gestisce la complessità dell’addestramento e dell’inferenza distribuiti.

“Strumenti come Tinker (e varianti aperte come OpenTinker) riducono i costi di implementazione, ed è probabile che sia i costi di manodopera che quelli di calcolo diminuiscano nel tempo”, ha affermato.

Casi d’uso nel mondo reale

I ricercatori hanno utilizzato TTT-Discover in quattro diversi campi tecnici: ingegneria dei sistemi, progettazione di algoritmi, biologia e matematica. In quasi tutti i casi, il metodo rappresenta un nuovo stato dell’arte.

In un esperimento, il modello ha ottimizzato i core GPU per la moltiplicazione di matrici ( "TriMul" nucleo utilizzato Piega alfa) raggiunge velocità di esecuzione fino a 2 volte più veloci rispetto al suo predecessore e supera i migliori kernel scritti da esseri umani nelle classifiche.

Negli scenari di programmazione competitiva (AtCoder) hanno risolto problemi euristici complessi (ad esempio, l’ottimizzazione dei vincoli geometrici per le reti da pesca) meglio degli esperti umani di alto livello e delle precedenti linee di base dell’IA.

Questa transizione dai benchmark accademici al valore aziendale per le imprese dipende da un vincolo specifico: l’esistenza di un segnale scalare verificabile. A differenza di un chatbot che genera testo, TTT-Discover necessita di una metrica rigorosa per l’ottimizzazione (ad esempio tempo di attività, tasso di errore o margine di profitto).

Yüksekgönül ha affermato che questo requisito traccia una linea chiara tra dove questa tecnologia dovrebbe e non dovrebbe essere utilizzata. "Attualmente, il requisito principale è un segnale di progresso scalare affidabile (costo, errore, proprietà molecolari) che il sistema possa ottimizzare." ha detto.

Ciò spinge l’adozione aziendale nella seguente direzione: "difficile" Sfide ingegneristiche e operative come la logistica, la catena di fornitura e la gestione delle risorse, dove problemi come il routing della flotta o la pianificazione dell’equipaggio spesso si basano su euristiche statiche. TTT-Discover può trattarli come ambienti di ottimizzazione e dedicare ore alla ricerca di una struttura di percorso che consenta di risparmiare il 5% sui costi giornalieri del carburante.

Il requisito per i validatori aperti esclude compiti qualitativi quali: "scrivere una strategia di marketing migliore," dove la verifica è soggettiva e soggetta a rumore.

"I problemi difficili da verificare sono ancora una questione aperta”, ha affermato Yüksekgönül.

Il modo migliore per procedere con la tecnologia attuale è provare a progettare validatori, ma “rendere questi validatori robusti e sfuggenti è una sfida e non abbiamo ancora una buona soluzione”." ha aggiunto.

Dall’inferenza all’invenzione

L’implicazione più ampia di ciò è che gli stack di intelligenza artificiale aziendale potrebbero dover evolversi per supportare questo tipo di apprendimento per problema.

“I sistemi costruiti attorno a un modello congelato dovranno supportare l’adattamento per problema (o per dominio), e le aziende avranno bisogno di migliori specifiche dei problemi e segnali di feedback interni per rendere l’apprendimento efficace al momento del test”, ha affermato Yüksekgönül. “Se la formazione viene condotta in un VPC dedicato, il ciclo di formazione può essere integrato non solo con una linea di laboratorio centrale ma anche con più ambienti interni dell’azienda.”

Il valore per l’azienda risiede nella definizione. "I “problemi da milioni di dollari” sono sfide di ottimizzazione in cui esiste una metrica verificabile ma il progresso dell’umanità è in fase di stallo. Questi sono i candidati per TTT-Discover. Le organizzazioni che accettano latenza e costi più elevati per determinate query possono trasformare i calcoli di inferenza in un laboratorio di ricerca e sviluppo automatizzato e scoprire soluzioni precedentemente inaccessibili sia agli esseri umani che ai modelli di intelligenza artificiale congelati.

Collegamento alla fonte