Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora


Un nuovo quadro di formazione Sviluppato dai ricercatori Terment AI Laboratory E Università di Washington a Louis Permette loro di migliorare se stessi senza la necessità di modelli di linguaggio di grandi dimensioni (LLM) Dati con tag umani. Tecnico, chiamato R-zeroUsa l’educazione al rinforzo per produrre i propri dati educativi da zero e si occupa di uno dei principali colli di bottiglia nella creazione di sistemi di intelligenza artificiale auto -sviluppatore. R-Zero funziona interagendo tra loro e sfidandoli.

Gli esperimenti mostrano che R-Zero ha migliorato significativamente le capacità di ragionamento in diversi LLM, che possono ridurre la complessità e i costi dell’istruzione avanzata dell’IA. Per le aziende, questo approccio può accelerare lo sviluppo di modelli speciali per compiti di ragionamento complessi senza un costo importante dei cluster di dati taggati in curatore.

La difficoltà di auto -sviluppo di LLM

L’idea alla base di LLMS auto -sviluppata è quella di creare sistemi di intelligenza artificiale in grado di produrre, perfezionare e apprendere la propria esperienza come autonoma. Questo offre un modo scalabile verso un’intelligenza artificiale più intelligente e talentuosa. Tuttavia, una grande sfida è che la formazione di questi modelli richiede compiti ed etichette di alta qualità in grandi quantità di compiti ed etichette di alta qualità che funzionano come segnali di audit per l’apprendimento dell’IA.

Al fine di creare questi dati, fare affidamento su descrizioni aggiuntive umane crea un collo di bottiglia di base, non solo costoso e lento, ma anche un collo di bottiglia di base. Limita efficacemente le potenziali capacità di un’intelligenza artificiale con ciò che le persone possono insegnare. Al fine di affrontare ciò, i ricercatori, ad esempio, hanno misurato la fiducia in una risposta e hanno sviluppato metodi imbattuti che ottengono segnali di ricompensa diretta dai risultati stessi di un modello. Mentre questi metodi eliminano la necessità di etichette aperte, si basano ancora su una serie di compiti pre -esistenti, in modo che limitino davvero la loro applicabilità in scenari auto -sviluppanti.


Ai Stroops sui limiti di ridimensionamento

I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:

  • Trasformare l’energia in un vantaggio strategico
  • Architetto efficiente deduzione per guadagni di resa reale
  • Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili

Assicurati il ​​tuo posto dove stare in futuro: https://bit.ly/4mwgngo


Altri approcci coinvolgono modelli per creare i propri compiti da imparare. Tuttavia, in settori come il ragionamento aperto, in cui esiste un modo semplice per controllare l’accuratezza (come il dirigente del codice), questo è un ostacolo importante alla qualità dei dati auto -prodotti.

Come funziona R-zero?

R-Zero è un framework progettato per formare LLM di ragionamento in grado di svilupparsi da dati esterni zero. Il processo inizia con un singolo modello di base diviso in due ruoli: una “sfida” e “solvente”. Questi due modelli sono ottimizzati in modo indipendente, ma si sviluppano con un ciclo di interazione continua.

L’obiettivo di Challenger è quello di creare nuovi compiti che non siano né facili né impossibili e che siano sul punto delle attuali capacità del solvente. Il solvente è sempre più premiato per risolvere questi compiti più complessi. Nei commenti scritti a Venturebeat, l’autore congiunto dell’articolo e St. Chengsong Huang, uno studente di dottorato dell’Università di Washington a Louis, ha annunciato che questa dinamica è molto importante perché è più complessa che trovare risposte alla produzione di domande di alta qualità.

“Ciò che troviamo in un ambiente pratico non è creare risposte alla sfida più grande, ma piuttosto di produrre domande di alta qualità, nuove e sempre più difficili”, ha affermato. “Riteniamo che i buoni insegnanti siano molto più rari di buoni studenti. La dinamica evolutiva comune, la creazione di un curriculum stabile e dinamico, che spinge le capacità del solvente oltre a ciò è possibile ottenere un set di dati statico e preesistente.”

Dopo aver creato abbastanza domande, Challenger viene filtrato per la diversità e compilato un set di dati di formazione. Nella fase di allenamento del solvente, in queste domande impegnative viene fatta un ottimo note. La risposta “giusta” per ciascuna domanda è determinata dal voto di maggioranza dei precedenti prove di risolutori.

L’intero processo viene ripetuto, il dipendente senza alcun intervento umano crea un ciclo auto -sviluppatore e consente ai due modelli di essere sempre più talentuosi in ogni ricorrenza.

R-zero in azione

I ricercatori hanno testato R-Zero su diverse fonti aperte, compresi i modelli delle famiglie Qwen3 e Octothinker. Per prima cosa hanno allenato i modelli sui problemi di matematica e quindi hanno testato se le abilità di ragionamento apprese possano essere generalizzate ad altri criteri sul campo complessi e generali. Mmlu-for (Compiti di comprensione e ragionamento multi -lingua) e Super (Doveri scientifici e ragionamenti).

I risultati hanno mostrato che R-zero è un telaio agostico altamente efficace. Ad esempio, il modello QWEN3-4B-BAZ ha aumentato il punteggio della media matematica tra una media di +6,49. Il processo di addestramento si è sviluppato continuamente e significativamente con i guadagni accumulati su diverse recidive. La base QWEN3-8B ​​più grande ha visto che il punteggio matematico medio è aumentato di +5,51 punti dopo tre ripetizioni.

Una scoperta importante è stata che dopo la prima ripetizione, il ruolo di Challenger nella creazione di un curriculum di apprendimento di alta qualità è stato immediatamente schizzare le prestazioni. “Ciò conferma che il curriculum intelligente prodotto da Challenger, che è addestrato da RL, è significativamente più efficace di un generatore non correlato”, scrivono i suoi ricercatori nei suoi articoli.

In particolare, le competenze apprese dai problemi di matematica sono state effettivamente trasferite ai compiti di ragionamento generale, aumentando così le capacità sottostanti dei modelli. Ad esempio, lo stesso modello QWEN3-4B-Base ha migliorato +7,54 in criteri di ragionamento sul campo generale. Un’altra scoperta interessante è che R-Zero può fungere da passo pre-allenamento decisivo. I primi modelli migliorati di R-Zero hanno ottenuto prestazioni più elevate quando vengono realizzati dati con tag fine nei dati etichettati tradizionali, il che mostra che il framework funge da amplificatore di prestazioni.

Per le aziende, l’approccio dei “dati zero” può essere uno scambiatore di giochi, specialmente nelle aree di nicchia in cui i dati di alta qualità non sono inferiori o esistono. Huang sottolinea che il principale vantaggio di R-Zero è la capacità di ridurre la parte più costosa e che richiede tempo dello sviluppo dell’IA: curatore di dati.

“Il nostro approccio sta lanciando il collo di bottiglia di base per trovare, etichettare e curare i cluster di dati di alta qualità”, ha affermato. “Questa non è solo una misura che salva il costo, ma un modo per creare AI in grado di superare le capacità umane, perché non è più limitata all’ambito della conoscenza o dei dati umani.”

Tuttavia, il processo evolutivo comune ha anche dimostrato una difficoltà critica. Poiché Challenger produce problemi più difficili, la capacità del solvente di produrre risposte “giuste” affidabili attraverso il voto della maggioranza inizia a diminuire. I ricercatori hanno scoperto che la vera precisione di queste etichette auto -prodotte è scesa dal 79% al 63% nella prima ripetizione.Rispetto a un forte Oracle LLM come GPT -4. Questa diminuzione della qualità dei dati è uno scambio significativo per le prestazioni a lungo termine del sistema e un potenziale collo di bottiglia.

Huang ha ammesso che si trattava di un problema fondamentale per il paradigma auto -sviluppatore. “Il nostro studio è una prova del concetto che mostra il potenziale di questo approccio, ma accettiamo che è un ostacolo importante per mantenere un miglioramento stabile e lungo termine senza altipiani.” “Risolvere questo problema sarà il prossimo passo per l’intera comunità di ricerca.”

I ricercatori sottolineano anche una limitazione di base del frame: l’attuale meccanismo è più adatto per aree come la matematica in cui l’accuratezza può essere identificata oggettivamente. Quindi, in che modo questo potente paradigma può essere ampliato a attività commerciali più soggettive come la creazione di una copia di marketing o riassumi i rapporti?

Huang suggerisce che una potenziale strada prevede l’aggiunta di un terzo, lo sviluppo di AI agente alla miscela: un “conferma” o “critico”.

“Invece di valutare una semplice risposta” giusta “, questo conferma sarà addestrato per valutare la qualità del solvente del solvente secondo ulteriori criteri di sfumatura”, ha spiegato. “La dinamica evolutiva comune includerà quindi la richiesta di richiesta di Challenger, il solvente che produce la risposta e il conferma che fornisce un segnale di qualità con lo sviluppo dei tre modelli insieme.”

Sebbene questo rimanga come una direzione per la ricerca futura, indica un futuro in cui i sistemi AI completamente autonomi potrebbero non solo dominare la logica oggettiva, ma anche per il ragionamento soggettivo.


Collegamento alla fonte