Gli errori sono ritagliati in materiali correlati all’IA
Paul Taylor/Getty Images
I chatbot di AI di aziende tecnologiche come Openai e Google stanno ottenendo l’aggiornamento dei cosiddetti argomenti negli ultimi mesi per farci rispondere a coloro di cui possiamo fidarci, ma i recenti test mostrano che a volte sono peggiori dei modelli precedenti. Gli errori commessi dai chatbot noti come “allucinazioni” sono stati un problema sin dall’inizio, ed è chiaro che non possiamo mai sbarazzarci di loro.
Le allucinazioni sono un termine generale per alcuni tipi di errori da parte di un modello linguistico di grandi dimensioni (LLMS), che è la chat di Openi o Google’s Gemini. Questo è meglio noto nel modo in cui a volte presentano false informazioni come verità. Ma può anche menzionare una risposta trasmessa dall’intelligenza artificiale che è effettivamente accurata, ma non è realmente rilevante per la domanda che è stata posta o non seguirà le istruzioni in qualche altro modo.
Un aperto Rapporto tecnico La valutazione dei suoi ultimi LLM ha mostrato che i suoi modelli O3 e O4-Mini, che sono stati rilasciati ad aprile, avevano tassi di alut significativamente più alti rispetto al precedente modello O1 dell’azienda che è emerso alla fine del 2024. Ad esempio, quando i fatti disponibili pubblicamente sulle persone sono stati riassunti, O4-Mini ha allocato per il 33 % per il 33 % per il tempo, mentre O4-Mini ha fatto il 48 % tempo. In confronto, il tasso di Halight di O1 era del 16 percento.
Il problema non si limita a Openi. un popolare Classifica La società indica un modello di “argomento” di WCTARA che valuta il tasso di allucinazioni al di là del modello Deepek-R1 di Deepek-It è stato visto che il doppio è aumentato che anche la doppia congestione è aumentata Tasso di allucinazione Rispetto al modello precedente dei tuoi sviluppatori. Questo tipo di modello passa attraverso diverse fasi per visualizzare una linea di logica prima di rispondere.
Openai afferma che il processo logico non è da biasimare. “Le allucinazioni nel modello logico non sono naturalmente più diffuse nel modello logico, sebbene stiamo attivamente lavorando per ridurre gli alti tassi di allucinazioni osservate in O3 e O 4-Mymin.” “Continueremo le nostre ricerche sulle allucinazioni in tutti i modelli per migliorare l’accuratezza e l’affidabilità”.
Alcune possibili applicazioni per LLM possono essere deragliate dalle allucinazioni. Un modello che dice una menzogna persistente e richiede che lo stending non sarà un assistente di ricerca ausiliario; Una barca da paralegale che cita questioni immaginarie metterà in difficoltà gli avvocati; Un agente del servizio clienti che afferma che le vecchie politiche saranno ancora attive, creerà mal di testa per l’azienda.
Tuttavia, le società di intelligenza artificiale hanno inizialmente affermato che il problema sarebbe stato eliminato nel tempo. In effetti, dopo la prima volta che è stato lanciato, il modello per fare meno allucinazioni con ogni aggiornamento. Ma l’alto tasso di allucinazione delle versioni recenti sta complicando quella storia, che l’argomento sia su un errore o meno.
La classifica di WCTARA ha brevemente classificato i documenti in base alla loro stabilità fattuale che riassumi i documenti loro forniti. Ciò ha dimostrato che “il tasso di allucinazioni è quasi lo stesso per i modelli logici rispetto ai modelli non reinning”, almeno per il sistema di Openai e Google. Forest Sheng Bao In vctAra. Google non ha fatto ulteriori commenti. Il BAO afferma che ai fini della classifica, il numero di tasso di Hally specifico è meno importante rispetto alle classifiche complessive di ciascun modello.
Ma questa classifica potrebbe non essere il modo migliore per confrontare il modello AI.
Per prima cosa, accetta una varietà di allucinazioni. Team WCTARA detto Sebbene il modello Dipsec-R1 si sia fermato nel 14,3 per cento delle volte, la maggior parte di questi era “delicata”: le risposte che sono in realtà supportate dalla logica logica o dalla conoscenza del mondo, ma il bot non era in realtà abbreviato nel testo originale. Deepsek non ha fatto ulteriori commenti.
Un altro problema con una tale classifica è che il test sintetizzato del testo “non dice nulla sul tasso di output errato (LLM) viene utilizzato per altre attività”. Emily Bender All’Università di Washington. Dice che i risultati della classifica potrebbero non essere il modo migliore per giudicare questa tecnica in quanto LLM non è progettato specificamente per sintetizzare i testi.
Bender afferma che questi modelli funzionano ripetutamente rispondendo alla domanda “Qual è una possibile parola successiva”, e quindi non stanno elaborando informazioni nello spirito generale di cercare di capire quali informazioni sono disponibili in un corpo del testo. Ma molte aziende tecniche usano ancora la parola “allucinazioni” quando descrivono errori di output.
“Le allucinazioni come una parola” sono due volte aslopi “, dice Bends.” Da un lato, suggerisce che l’output sbagliato è un disastro, forse uno che può essere ridotto, mentre il resto del tempo il sistema è messo a punto, affidabile e affidabile. D’altra parte, funziona con Anthropomorphis le macchine: le allucinazioni non credono che i grandi modelli linguistici non siano nulla “
Arvind Narayanan L’Università di Princeton afferma che il problema è oltre le allucinazioni. I modelli a volte commettono altri errori, come attingere a fonti incredibili o utilizzare informazioni croniche. E non è necessario lanciare più dati di allenamento e potenza di calcolo semplicemente in AI.
Il rapitore è che potremmo dover vivere con AI soggetto a errori. Narayanan ha detto sui social media Inviare Questo può essere il migliore in alcuni casi, solo tali modelli vengono utilizzati quando si controlla la risposta AI per effettivamente fare la risposta AI. Bender afferma che i migliori passaggi potrebbero essere quello di fornire informazioni fattuali per evitare di fare affidamento perfettamente sui chatbot AI.
Soggetto: