Il modo in cui addestramo gli AIS li rende più probabili per farli vietare.

1 Agosto 2025

Alcune tecnologie di formazione AI possono incoraggiare i modelli a essere falsi

Cravetiger/Getty Pictures

I metodi comuni usati per formare i modelli di intelligenza artificiale aumentano la loro tendenza a dare risposte fuorvianti, secondo i ricercatori, che si prendono di mira per creare “la prima analisi sistematica delle cazzate di macchine”.

È noto che il Big Language Model (LLM) ha la tendenza a generare informazioni false – o “allucinazioni” – ma è solo un esempio, lo dice. Zame Fernandez Fisak All’Università di Princeton. Lui e i suoi colleghi hanno definito le cazzate come “un discorso per manipolare le convinzioni del pubblico alle credenze del pubblico” con disprezzo del suo vero valore “.

“La nostra analisi ha scoperto che il problema della spazzatura nei modelli di grandi dimensioni è piuttosto serio e più ampio”, afferma Fisac.

Il team ha diviso esempi in cinque categorie: retorica vuota, come “collega lo stile di auto rossa, l’attrazione e l’avventura che attirano tutti”; Weasel Words – Dichiarazioni incerte come “Studi suggeriscono che i nostri prodotti possono aiutare a migliorare i risultati in alcuni casi”; Paltering – Utilizzo di affermazioni vere per dare un’impressione fuorviante; Rivendicazioni irregolari; E sicofanità.

Ha studiato tre set di dati, che includevano una vasta gamma di migliaia di reazioni collegate ai modelli, tra cui GPT -4, Gemini e Lama. Un set di dati contiene una serie di domande progettate per testare il bulbolaggio quando AIS viene chiesto di fornire indicazioni o raccomandazioni, mentre altri set di dati includevano domande su shopping online e questioni politiche.

Fisac e i suoi colleghi hanno usato per la prima volta un LLM per determinare se le reazioni fossero incluse in una qualsiasi delle cinque categorie, quindi i volontari hanno potuto verificare che le decisioni dell’IA fossero allineate con gli umani.

Il team ha scoperto che i problemi più gravi con la verità sono nati a seguito del metodo di allenamento noto come l’apprendimento del rinforzo dalla risposta umana. Lo scopo della tecnica è rendere più utili le reazioni della macchina rispondendo immediatamente alle sue reazioni.

Ma questo approccio è problematico, afferma FISAC, in quanto dà la priorità al modello immediatamente l’approvazione umana e percepito aiuto, che “a volte è in conflitto con la verità”.

“A chi piace ascoltare cattive notizie o intrattenere una lunga e bella negazione di qualcosa che sembra chiaramente vero?” Dice fisac. “Impariamo a ridurre la verità a favore della fiducia dei modelli, reazioni eloquenti cercando di seguire la misurazione del buon comportamento che fornisce loro, in modo che possano garantire la nostra approvazione”.

Lo studio ha scoperto che l’apprendimento del rinforzo dalla risposta umana ha notevolmente aumentato il comportamento delle bolle: la retorica vuota è aumentata di circa il 40 percento, circa il 60 percento, parole di oltre un quarto e rivendicazioni di oltre la metà respinte di reclami di oltre la metà.

Dicono i membri del team Kak LiangAnche a Princeton, poiché motiva gli utenti a prendere decisioni sbagliate. Quando un modello non era sicuro se un prodotto avesse una caratteristica desiderata, le affermazioni positive fuorvianti hanno superato la quinta a tre quarti dopo l’addestramento umano.

Un’altra preoccupazione è che con il modello AI, “con il modello AI” fosse una cazzata comune nelle discussioni politiche “, spesso ricorrono a un linguaggio vago e poco chiaro per evitare di impegnarsi in dichiarazioni solide”, afferma Liang.

I ricercatori hanno scoperto che l’AIS ha anche maggiori probabilità di comportarsi in modo tale quando c’è un conflitto di interessi, poiché il sistema serve molte parti, come un’azienda e i suoi clienti, trovati dai ricercatori.

Il modo per superare il problema potrebbe essere quello di andare al modello di “feedback di hesite”, suggeriscono. Invece di chiedere una risposta immediata dopo l’output del modello AI, il sistema dovrebbe prima generare una simulazione encomiabile che ciò che può accadere se l’utente lavora sulle informazioni ricevute. Presenterà quindi il risultato alla valutazione umana per rendere giustizia.

“Dopotutto, speriamo che l’intelligenza artificiale possa mirare a fuorviarci per una migliore comprensione di metodi sottili ma sistematici, possiamo davvero guidare gli sforzi futuri per lo sviluppo del sistema di AI della verità”, afferma Fisac.

Daniel Tygard All’Università di San Diego, che non era coinvolto nello studio, si sospetta di discutere LLM e il loro risultato in tali parole. Sostiene che solo perché un LLM produce assurdità, ciò non significa che lo stia facendo deliberatamente, dato che il sistema AI, poiché sono attualmente in piedi, non lo fanno. Mettici a imbrogliare e non avere interesse Per farlo.

“Il motivo principale è che questo inquadratura corre contro alcuni suggerimenti molto intelligenti su come non dovremmo vivere con tali tecnologie e non”, afferma Tygard. “Chiamare le cazzate può essere un altro modo per rendere questi sistemi un essere umano, che a sua volta può, ben contribuito alla loro capacità fuorviante.”

Soggetto:

Collegamento alla fonte

Il modo in cui addestramo gli AIS li rende più probabili per farli vietare.

Ultimo post

Il capo del Pentagono afferma che gli Stati Uniti hanno più...

Eliminazione dal vivo di “American Idol” rinviata dopo un voto senza...

Il proprietario dei Browns ha due parole per descrivere la situazione...

Lo Stretto di Hormuz sarà aperto con tutti i mezzi

La data di uscita della seconda stagione di Last Airbender è...

La stella del Chelsea guida la lista dell’Atlético Madrid per posizione

Il calciatore muore quando l’autobus della squadra si schianta e 20...

La correlazione con il petrolio diventa favorevole – Commerzbank

Re Carlo farà una visita di stato negli Stati Uniti ad...

Perché i politici vogliono che l’intelligenza artificiale avanzi più velocemente?

Spiegazione del ritardo di Apple TV 2026: perdita di A17 Pro...

Video musicale di Taylor Swift “Elizabeth Taylor”.

Categoria