DipMind si rivolge anche a un meta-concerto per l’IA. I ricercatori affermano che una forte intelligenza artificiale nella mano sbagliata può essere pericolosa se viene utilizzata per accelerare la ricerca sull’apprendimento automatico, causando modelli AI più capaci e illimitati. DipMind afferma che “può avere un impatto significativo sul potere della società di adattarsi e gestire con forti modelli di intelligenza artificiale”. DipMind lo identifica come una minaccia più grave di altri CCL.

MISSILIZZA AI

La maggior parte dei mitles di protezione dell’IA seguono l’idea che il modello stia cercando di seguire le minimi istruzioni. Nonostante le allucinazioni per anni, i ricercatori non sono stati in grado di rendere questi modelli completamente credibili o accurati, ma è possibile che l’entusiasmo di qualsiasi modello possa essere riscaldato per incidente o scopo. Se un’intelligenza artificiale fuorviante sta lavorando attivamente contro le persone o inizia a ignorare le istruzioni, è un nuovo tipo di problema che esce dalle allucinazioni generali.

La struttura di protezione della frontiera versione 3 introduce un “approccio investigativo” per comprendere i rischi di un’intelligenza artificiale confusa. Esistono già esempi documentati di modelli di AI generatore coinvolti in frodi e comportamenti disobbedienti e ricercatori profondi hanno espresso preoccupazione per il fatto che potrebbe essere difficile monitorare tale comportamento in futuro.

Un’intelligenza artificiale fuorviante può ignorare le istruzioni delle persone, può produrre risultati fraudolenti o rifiutare di smettere di operare se richiesto. Ora, ci sono modi abbastanza semplici per affrontare questo risultato. I modelli razionali simulati più avanzati di oggi creano l’output “scratchpad” durante il processo di pensiero. Si consiglia di utilizzare un monitor automatico per effettuare il modello di produzione di una catena del modello per ricontrollare per la confusione o l’inganno delle prove.

Google afferma che questo CCL potrebbe diventare più grave in futuro. Il team ritiene che nei prossimi anni, i modelli possano svilupparsi come un argomento simulato efficace senza produrre una catena di pensiero verificabile. Quindi il tuo guardrail all’estero non sarà in grado di vedere il processo logico di questo modello nazionale. Per questa teorica AI avanzata, potrebbe essere impossibile negare completamente che il modello stia lavorando contro gli interessi del suo operatore umano.

Il framework non ha ancora una buona soluzione a questo problema. DipMind afferma che sta cercando un potenziale pacciamatura per un’intelligenza artificiale fuorviante, ma è difficile sapere quando o se questo problema diventerà realtà. Questi modelli “pensieri” erano comuni solo per quasi un anno e ancora non sappiamo molto su come raggiungono l’output dato.

Collegamento alla fonte