Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora
UN Nuovo lavoro da Arizona State University I ricercatori sostengono che la famosa “catena di pensiero” (COT) in grandi modelli di lingua (LLM) può essere più “miraggio fragile Öz più che intelligenza reale. La ricerca si basa su un gruppo in crescita di gruppi di lavoro che mettono in discussione la profondità del ragionamento LLM, ma una lente” distribuzione dei dati unica “è necessaria per testare dove e il COT diminuisce sistematicamente.
Per i costruttori di applicazioni, l’articolo va oltre le critiche per fornire una guida chiara e pratica su come spiegare queste limitazioni durante lo sviluppo di applicazioni supportate da LLM dalle strategie di test a un ruolo sottile.
La promessa e il problema della catena di pensiero
La domanda di cot, che ha chiesto a un LLM di “pensare passo dopo passo, ha mostrato risultati impressionanti su compiti complessi e ha portato alla percezione che i modelli hanno partecipato a processi di inferenza simili a umani. Tuttavia, un esame più stretto rivela incoerenze logiche che sfidano questa visione.
Vari studi dimostrano che gli LLM spesso si fidano della semantica e degli indizi a livello di superficie piuttosto che delle procedure logiche. I modelli producono una ragionevole logica audio ripetendo i modelli di marker che vedono durante l’allenamento. Tuttavia, questo approccio di solito non riesce da modelli familiari quando vengono portate con fiina o informazioni irrilevanti.
Ai Stroops sui limiti di ridimensionamento
I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:
- Trasformare l’energia in un vantaggio strategico
- Architetto efficiente deduzione per guadagni di resa reale
- Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili
Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo
Nonostante queste osservazioni, i ricercatori del nuovo studio sostengono che una comprensione sistematica del perché e quando la ragione dei jeans ha fallito è ancora un mistero. Precedenti studi hanno già dimostrato che gli LLM stanno lottando per generalizzare le loro capacità di ragionamento. Come sottolinea l’articolo, “Le prove teoriche ed empiriche mostrano che il COT è ben generalizzato quando gli input di test sono condivisi con i dati di allenamento, altrimenti le prestazioni diminuiranno nettamente”.
Un nuovo obiettivo nel ragionamento LLM
I ricercatori dell’ASU propongono un nuovo obiettivo per mostrare questo problema: il COT non è un’azione di ragionamento, ma un sofisticato modello di modanatura basato su modelli statistici sui dati educativi. “Il successo di Cot deriva dalla naturale capacità di ragionamento di un modello, ma dalla capacità di generalizzare strutturalmente, analogamente agli esempi di distribuzione interna.” In altre parole, un LLM è buono nell’applicare vecchi schemi a nuovi dati che sembrano simili, ma non per risolvere nuovi problemi.
Per testare questa ipotesi, hanno distrutto le capacità di COT lungo le tre dimensioni di “spostamento distributivo” (cambiamenti tra i dati di addestramento e i dati di test). In primo luogo, hanno testato la “generalizzazione della missione” per vedere se un modello potrebbe implementare un processo di ragionamento appreso su un nuovo tipo di attività. In secondo luogo, hanno esaminato la “generalizzazione delle lunghezze üzere per determinare se potevano prendere una catene di ragionamento più lunghe o più brevi di quanto non fossero addestrate. Infine, hanno valutato il” formato generalizzazione Özgün per misurare quanto il modello fosse sensibile ai piccoli cambiamenti nell’espressione o nella struttura della richiesta.
Per l’analisi, Dataalchemy Al fine di addestrare LLM più piccoli da zero in un ambiente controllato, consente loro di misurare completamente il modo in cui le prestazioni vengono rotte quando vengono spinte oltre i dati di allenamento.
“L’obiettivo di distribuzione dei dati e un ambiente controllato sono al centro di ciò che stiamo cercando di trasmettere, Chengshuai Zhao, uno studente di dottorato nell’ASU e il co -autore dell’articolo, si dice che venne il bersaglio.” Speriamo di creare un’area in cui persone, ricercatori e sviluppatori possono scoprire liberamente la natura delle LLM ed esplorare e far avanzare i limiti di conoscenza umana. “
Mirage approvato
Sulla base dei loro risultati, i ricercatori hanno concluso che il ragionamento del COT è la base con la distribuzione della distribuzione dei dati durante l’educazione e quando è una forma sofisticata di corrispondenza del modello strutturato ”. Quando questa distribuzione è un po ‘testata, le prestazioni crollano.
L’errore era coerente in tutte e tre le dimensioni. In nuovi compiti, i modelli non potevano generalizzare e invece hanno aumentato i modelli più vicini che hanno visto durante l’allenamento. Quando hanno incontrato catene di ragionamento di diverse lunghezze, hanno lottato, spesso hanno cercato di aggiungere o rimuovere passaggi che rispettavano la durata degli esempi educativi. Infine, le loro prestazioni sono state molto sensibili ai cambiamenti superficiali nelle variazioni di elementi e istruzioni principali.

È interessante notare che i ricercatori hanno scoperto che questi fallimenti potrebbero essere corretti rapidamente. I modelli sono aumentati rapidamente eseguendo la sintonizzazione fine in un esempio molto piccolo di dati nuovi e invisibili attraverso la sintonizzazione fine controllata (SFT). Tuttavia, questa rapida correzione supporta ulteriormente la teoria della corrispondenza del modello, che il modello non impara a ragionare in modo più astratto, ma memorizza invece un nuovo modello per superare un certo punto debole.
Pacchetti per le imprese
I ricercatori sottolineano che fornendo un avvertimento diretto ai professionisti, il rischio di fare affidamento sulla COT come soluzione efficace e di gioco e equalizzare la produzione in stile karyol con il pensiero umano ”. Forniscono tre importanti consigli per gli sviluppatori che creano applicazioni con LLMS.
1)Proteggi dalla dipendenza eccessiva e dalla fiducia sbagliata. Non dovrebbe essere considerato un modulo affidabile per il ragionamento in aree di scommesse elevate come COT, finanza o analisi legale. LLMS può produrre chiaramente “assurdo fluente” (ragionamento difettoso ragionevole ma logico), che è chiaramente ingannevole di una risposta sbagliata. Gli autori sottolineano che “il controllo adeguato degli esperti di dominio è indispensabile”.
“Il progresso della scienza dovrebbe rimanere makin centrati sull’uomo, ma la scoperta si sta ancora sviluppando sull’umanità e la curiosità, Z ha detto Zhao.
2) pRiolitizza il test ood). La verifica standard, in cui i dati di test riflettono i dati educativi, non è sufficiente per misurare la forza reale. Gli sviluppatori dovrebbero applicare test meticolosi che studiano sistematicamente i guasti tra compiti, lunghezze e variazioni di formato.
3)Riconoscere la perfezione come patch, non Payacea. Sebbene la regolazione sottile controllata (SFT) possa rapidamente “rattoppare le prestazioni di un modello in una particolare nuova distribuzione dei dati, non crea una vera generalizzazione. Espande delicatamente la“ bolla di distribuzione ”del modello. Fidarsi della SFT per correggere ogni errore OOD è una strategia insostenibile che non affronta la mancanza di ragionamento astratto del modello.
Sebbene non vi sia alcuna forma di cognizione umana del lettino, questa limitazione può essere gestita. La maggior parte delle pratiche aziendali contiene una serie di compiti relativamente ristretti e prevedibili. I risultati dell’articolo offrono un piano per garantire l’affidabilità in questi campi. Gli sviluppatori possono creare semi di valutazione meticolosi che testano sistematicamente le prestazioni del modello in base a determinate attività, lunghezze e variazioni di formattazione che le loro applicazioni dovranno affrontare. Ciò consente a un modello di mappare i confini della zona di comfort “all’interno della distribuzione” e determinare dove è compatibile con le sue esigenze speciali.
Questo test mirato converte l’adeguamento fine da una “patch” reattiva a una strategia di allineamento proattivo. Quando le valutazioni rivelano una certa debolezza, gli sviluppatori possono creare set di dati SFT piccoli e mirati per affrontarlo. Invece di cercare di raggiungere il ragionamento generale e generale, questo approccio utilizza SFT chirurgicamente per garantire che le capacità di corrispondenza del modello del modello siano completamente allineate con i contorni di una particolare attività operativa. In definitiva, lo studio offre una lente pratica per andare oltre le applicazioni di speranza e ingegneria per ottenere un successo prevedibile.
Collegamento alla fonte