Quanto sono buone le affermazioni fatte dallo strumento AI?

Immagine Oscar Wong/Getty

Gli strumenti generativi di intelligenza artificiale e gli agenti di ricerca profondi e i motori di ricerca gestiti da loro, spesso fanno incapacità e affermazioni distorte che non sono supportate da fonti che citano. È stato trovato secondo un’analisi che quasi un terzo del Nord Nord fornito dallo strumento AI non è supportato da fonti affidabili. Per GPT 4.5 di Openai, la cifra era ancora più al 47 percento.

Pranav Narayanan Venkit Salesforce AI Research e i suoi colleghi hanno testato i motori di ricerca AI generativi tra cui GPT-4.5 e 5, You.com, perplessità e la chat di Microsoft di Openi. Insieme a questo, ha posto cinque agenti di ricerca profondi attraverso il suo ritmo: GPT-5 Deep Research Funcy, Bing Chat Think più profonde e strumenti di ricerca profondi da te forniti da te, Google Gemini e perplessità.

Narayanan Venkit afferma: “Volevamo fare una valutazione tecnica sociale sui motori di ricerca generici”. L’obiettivo era stabilire quanto fossero buone le risposte e gli umani dovrebbero considerare le informazioni da esse contenute.

Sono state fatte 303 domande per rispondere a motori di intelligenza artificiale separati, valutati contro otto matrice separata con reazioni di AI -i criteri dei ricercatori chiamati Dipatress. Le metriche sono progettate per verificare se una risposta è una fiducia unilaterale o eccessiva, quanto è rilevante per la domanda, quale fonte cita, se presente, quanto supporto sono offerti le citazioni per i reclami fatti nella risposta e quanto siano perfettamente le citazioni. Le domande sono state approssimativamente divise in due gruppi: il primo gruppo includeva domande su questioni controverse, che offrono l’opportunità di rilevare i pregiudizi nelle reazioni di intelligenza artificiale, mentre il secondo gruppo includeva domande progettate per testare le competenze su molte aree tra cui interazioni meteorologiche, mediche e umane.

Un esempio di una domanda controversa progettata per provocare il dibattito è “Perché l’energia alternativa non può sostituire efficacemente i combustibili fossili?” Mentre una domanda basata sulle competenze “Quali sono i modelli più rilevanti utilizzati nell’idrologia computazionale?”

Le risposte AI sono state valutate da un modello linguistico di grandi dimensioni (LLM), che è stato preparato a capire che è meglio giudicare una risposta attraverso un processo di formazione che prevede il controllo di come due anottenti umani valutano le risposte a più di 100 domande simili a quelle utilizzate nello studio.

Nel complesso, i motori di ricerca manuali e le attrezzature di ricerca profonde si sono comportati molto male. I ricercatori hanno scoperto che molti modelli hanno fornito risposte unilaterali. Circa il 23 percento delle affermazioni fatte dal motore di ricerca di Bing Chat includeva dichiarazioni, mentre per te.com e il motore di ricerca di AI perplessità, la cifra era di circa il 31 percento. GPT-4.5 ha prodotto ancora più incapaci di produrre -47 per cento ma anche al di sotto del 97,5 per cento, al di sotto delle affermazioni non appropriate fatte dal profondo agente di ricerca della perplessità. “Siamo stati certamente sorpresi di vederlo”, afferma Narayanan Venkat.

Openi ha rifiutato di commentare i risultati della carta. La perplessità si rifiutò di commentare i registri, ma non era d’accordo con il funzionamento dello studio. In particolare, la perplessità ha riferito che i suoi utensili utenti uno specifico modello AI-GPT-4, ad esempio, che ritengono probabilmente darà la risposta migliore, ma lo studio ha utilizzato un’impostazione predefinita, in cui lo strumento perplessità sceglie il modello AI. (Narayanan Venkit ammette che il team di ricerca non ha rilevato questa variabile, ma sostengono che la maggior parte degli utenti non saprebbe che il modello AI deve essere selezionato comunque.) AAP.com, Microsoft e Google non hanno risposto. Nuovo scienziato,S Richiesta di commento.

“Gli utenti e vari studi hanno frequenti lamentele secondo cui, nonostante le principali riforme, i sistemi di intelligenza artificiale possono produrre nord o fuorvianti”, ” Felix Simon All’Università di Oxford. “In questo modo, questo documento fornisce alcune prove interessanti su questo problema che aiuteranno a ulteriori miglioramenti su questo fronte”.

Tuttavia, non tutti sono così fiduciosi nei risultati, anche se risiede con i rapporti della potenziale incredibilità dell’attrezzatura. “I risultati del documento sono pesanti sull’annotazione basata su LLM dei dati raccolti”, afferma Alexander Uraman All’Università di Zurigo, in Svizzera. “E ci sono molti problemi con esso.” Eventuali conseguenze che l’uso dell’IA deve essere controllata e valida dagli umani – qualcosa che Urman è preoccupato che i ricercatori non abbiano fatto abbastanza bene.

È inoltre preoccupato che la tecnologia statistica sia utilizzata per verificare che il numero relativamente basso di note umane sia allineato con la risposta LLM-Anotato. La tecnica utilizzata dalla correlazione del Piercene è “molto non standard e peculiare”, afferma Urman.

Nonostante le controversie sulla validità dei risultati, Simon ritiene che gli utenti abbiano più lavoro per garantire che facciano una corretta interpretazione delle risposte ottenute da questi dispositivi. “L’accuratezza, la diversità e l’approvvigionamento di risposte basate sull’intelligenza artificiale richiedono un miglioramento, in particolare questi sistemi vengono lanciati più ampiamente in vari settori”, dicono.

Soggetto:

Collegamento alla fonte