Opeeni ha pubblicato nuove ricerche, spiegando che Chatzpt, il suo modello linguistico più comunemente usato, a volte falso, ma l’incisione crea informazioni – un evento noto come “allucinazioni”.

Secondo l’agenzia, i motivi principali costano la formazione e la valutazione di questi modelli, i processi che indovinano l’incertezza.

Newsweek Contatta l’Openi per ulteriori informazioni oltre il tempo di lavoro generale.

Perché è importante

I modelli di grande lingua come Chatgpt stanno sempre più aumentando l’istruzione, l’assistenza sanitaria, il servizio clienti e altri casi in cui l’accuratezza è importante. Gli output allucinati che sono veramente sbagliati, ma la validazione è presente, riduce la fede e causano danni del mondo reale.

Sapere cosa

Nonostante il progresso dello sviluppo di modelli più capaci tra cui GPT -5, le allucinazioni rimangono come un problema continuo, specialmente quando si richiede i modelli per generare dati informativi specifici.

IL RicercaSulla base della ricerca degli scienziati di Openai – tra cui Adam Kalai e Santosh Vempal, erano necessari cambiamenti strutturali per risolvere il problema.

Secondo la definizione interna di OpenAI, le allucinazioni sono “lodevoli ma false dichiarazioni dal modello linguistico”.

Un esempio citato nello studio è che una ricerca di ricerca sulla ricerca coinvolge più titoli per un chatbot, tutti sono sbagliati. In altri casi, il modello ha dato tre una data separata, uniformemente sbagliata per il compleanno della stessa persona.

Immagine di stock: in una foto scattata il 1 ° settembre, uno schermo per smartphone a Francoforte, in Germania, è mostrato nel logo dell’applicazione Chatzpt, il logo Chatzpt sullo schermo del laptop.

Immagine getty

Ciò è dovuto a come vengono addestrati i modelli linguistici. Durante la gravidanza, i modelli hanno imparato a prevedere la parola successiva in una frase basata su molti testi, ma quale affermazione è falsa non viene mai mostrata. Questi processi di statistica, tuttavia, sono efficaci nella creazione di lingue coerenti, combattendo informazioni senza brevi come la data di nascita e il titolo editoriale.

Quando questi modelli nazionali vengono testati per le prestazioni, l’accuratezza viene spesso considerata l’unica metrica. Crea incentivi simili di test a scelta multipla: è statisticamente meglio indovinare piuttosto che dire “Non lo so”. Secondo i ricercatori, “Se il tabellone principale premiasse le stime fortunate, i modelli avrebbero imparato a indovinare”.

Per illustrare il problema, il team ha confrontato i due modelli in un test di valutazione di base. Le nuove varianti GPT -5 avevano il 52 percento del tasso esausto e il tasso di errore del 26 percento. Nel frattempo, un vecchio modello, aperto e 4 minuti, ha mostrato una negligenza dell’1 % ma ha mostrato il tasso di errore del 75 %.

Cosa dicono le persone

Openi ha scritto Nella ricerca di ricerca: “Nell’Openi, stiamo lavorando duramente per rendere i sistemi di intelligenza artificiale più utili e affidabili. Anche con i modelli linguistici diventano più in grado di risolvere una sfida risolta completamente ostinatamente: allucinazioni. Ciò significa che siamo questi esempi in cui un modello di fiducia produce una risposta che non è vera.

“Le allucinazioni continuano parzialmente perché gli attuali metodi di valutazione determinano l’incentivo errato. Sebbene le valutazioni non causino direttamente allucinazioni, la maggior parte delle valutazioni misurano le prestazioni del modello in un modo che incoraggia a stimare l’incertezza piuttosto che l’onestà.”

Dopo di che

Open afferma che invece di scoraggiarlo, i criteri di valutazione stanno lavorando per rinnovare il premio di incertezza.

Collegamento alla fonte