Home Notizia La “logica simulata” di LLMS è un “tallone fragile”, i ricercatori cercano

Notizia

La “logica simulata” di LLMS è un “tallone fragile”, i ricercatori cercano

11 Agosto 2025

I ricercatori hanno utilizzato casi di test che non rientrano dal tipo di attività, dal formato e dai dati di addestramento LLM in lunghezza.

Credito:

Zhao et al

Questi modelli di sorgo sono stati quindi testati utilizzando una varietà di compiti, alcuni dei quali corrispondono ai modelli di funzionalità dati dell’allenamento specifici o strettamente, e altri devono essere parziali o completi “fuori dal dominio” per i dati di addestramento. Ad esempio, un modello addestrato nei dati mostrati in due turni circolari può essere chiesto di effettuare una trasformazione di fantasia che coinvolge due turni marci (incluso l’addestramento preliminare su come appare un singolo esempio di entrambi i tubi). Sono stati confrontati con la risposta desiderata usando la risposta finale e i passaggi ragionevoli Punteggio blu E Distanza di Levenstin Per una misurazione intenzionale della loro precisione.

Poiché i ricercatori hanno ipotizzato che i fantasiosi set di trasformazioni che non sono stati visualizzati direttamente nei dati di addestramento siano stati invitati a generalizzare questi modelli iniziali in modo disastroso. Sebbene i modelli spesso abbiano cercato di generalizzare nuove regole logiche basate su modelli simili nei dati di addestramento, spesso porta il modello a “i percorsi logici giusti, danno le risposte sbagliate”. In altri casi, l’LLM a volte inciampa sulle risposte corrette associate a “logica infedele” che non segue logicamente.

I ricercatori scrivono: “Invece di mostrare la vera comprensione del testo, la logica del letto sotto la trasformazione delle attività riflette una trascrizione della formazione durante la formazione”, hanno scritto i ricercatori.

I lavori richiesti sono più usciti dalla distribuzione della formazione (punti radder), le risposte forniscono la risposta desiderata (più basso del grafico) al flusso più lontano.

Credito:

Zhao et al

I ricercatori sono andati ad esaminare il loro sistema controllato utilizzando una stringa di testo di input leggermente più bassa o lunga per addestrare i dati, oppure erano le catene di funzioni necessarie di diverse funzioni di lunghezza rispetto a quella addestrata. In entrambi i casi l’accuratezza dei risultati “(lunghezza) si deteriora all’aumentare del significato”, “indicando quindi il fallimento della generalizzazione nei modelli”. Significato piccolo e non familiare al modello (ad es. L’introduzione di lettere o simboli trovati nei dati di addestramento) nel formato delle attività di test hanno anche trovato prestazioni “fortemente degradate” e “interessate” (modifica) “, ricercatori.

Collegamento alla fonte

La “logica simulata” di LLMS è un “tallone fragile”, i ricercatori cercano

Ultimo post

Incidente di EE Smith | Nuovi dettagli emergono dall’incidente di Fayetteville...

Prolo Ring: il dispositivo indossabile ridefinisce il controllo del desktop

Sabrina Carpenter ha “arrestato” Gigi Hadid durante lo Short N’ Sweet...

L’EUR/GBP sale ai massimi di quattro settimane mentre aumentano le possibilità...

I prezzi in Turchia aumentano in vista del Ringraziamento

Il capitano del Real Madrid parlerà con Lamine Yamal dopo il...

Wayne Rooney ha “offerto” la leggenda della boxe al matrimonio dopo...

Ego Naudim si riunirà con la collega ex studentessa del “SNL”...

I Browns sono stati invitati a prendere una decisione su Shedeur...

Philip Morris International fornisce 100.000 dollari per cure odontoiatriche al Wounded...

John Boyega sarà sempre un ‘appassionato di spade laser’, ma ammette...

Maggie Baughey Alexandra Kay, Keith Urban Voci di appuntamenti

Categoria