Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora


UN Nuovo lavoro da lui Programma di borse di studio antropiche Nei modelli di linguaggio di grandi dimensioni (LLM), emerge una tecnica per identificare, monitorare e controllare le caratteristiche dei caratteri. I risultati mostrano che i modelli possono sviluppare personalità indesiderate in risposta alle richieste degli utenti o come risultato indesiderato (ad esempio, dannoso, eccetto di creare qualcosa).

I ricercatori introducono i “Persona vettori Olan, che corrisponde a determinati tratti della personalità nel campo dell’attivazione interna di un modello e forniscono un set di strumenti per gli sviluppatori per gestire meglio il comportamento degli assistenti di intelligenza artificiale.

Model Le persone possono sbagliare

LLMS spesso interagisce con gli utenti attraverso un personaggio “assistente” progettato per essere utile, innocuo e onesto. Tuttavia, queste persone possono fluttuare in modi inaspettati. Nella distribuzione, la personalità di un modello può cambiare in modo significativo in base alle affermazioni o al contesto del linguaggio, come visto dal Bing Chatbot di Microsoft. Utenti minacciati o il Gok di Xai è iniziato ignorare. Come affermato negli articoli dei ricercatori, “questi esempi speciali attirano l’attenzione del pubblico, mentre la maggior parte dei modelli linguistici è sensibile ai cambiamenti della personalità del contesto”.

Le procedure di formazione possono anche causare cambiamenti imprevisti. Ad esempio, in un compito ristretto come la creazione di codice insicuro, la regolazione sottile può portare a una situazione più ampia “L’allineamento errata risultante“Ciò si estende oltre il compito originale. Anche gli aggiustamenti di allenamento ben intenzionati possono essere ritorti contro.


Ai Stroops sui limiti di ridimensionamento

I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:

  • Trasformare l’energia in un vantaggio strategico
  • Architetto efficiente deduzione per guadagni di resa reale
  • Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili

Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo


Come funzionano i vettori personali

Fonte: antropico

Si basa sul concetto che le caratteristiche di alto livello come nuove ricerche, accuratezza o riservatezza sono codificate in aspetto lineare di un modello nell’area di “Activazione” (dimostrazione interna, ad alta dimensione di informazioni sepolte nei pesi del modello). I ricercatori sistematicamente il processo di ricerca di questi aspetti, che chiamano “vettori di persona … secondo l’articolo, i metodi per sottrarre i vettori di personalità sono automatici e possono essere applicati a qualsiasi caratteristica della personalità solo considerando la descrizione del linguaggio naturale”.

Il processo funziona attraverso una pipeline automatica. Inizia con una semplice spiegazione di una funzione come “Evil”. La pipeline produce quindi una doppia richiesta di sistema opposta (ad esempio, “sei un’intelligenza artificiale”, ecc. “Un assistente AI”) con una serie di domande di valutazione. Il modello produce risposte in base a richieste sia positive che negative. Il vettore della persona viene calcolato prendendo la differenza nelle attivazioni interne medie tra le risposte che mostrano la funzione. Ciò isola un certo aspetto che corrisponde a questa caratteristica della personalità nel peso del modello.

Per usare i vettori personali

Qwen 2.5-7b-in-in-in-in-in-in-ini

Innanzitutto, riflettendo lo stato interno di un modello a un vettore, gli sviluppatori possono monitorare e prevedere come comportarsi prima di produrre una risposta. “Mostriamo che lo spostamento della persona da parte di una falsità intenzionata e indesiderata è fortemente correlato ai cambiamenti di attivazione lungo i corrispondenti vettori della persona.” Ciò consente di rilevare precoce e mitigazione di cambiamenti comportamentali indesiderati durante la regolazione fine.

I vettori personali consentono anche un intervento diretto per prevenire comportamenti indesiderati nel tempo attraverso un processo in cui i ricercatori lo chiamano “sterzo”. Un approccio è il “volante post-hoc ği, in cui gli sviluppatori hanno rilasciato il vettore del personale dalle attivazioni del modello durante l’inferenza per ridurre una cattiva caratteristica. Sebbene i ricercatori abbiano scoperto che il volante post-hoc può talvolta interrompere le prestazioni del modello in altre attività.

Un nuovo metodo è lo “sterzo preventivo” in cui il modello è diretto alla persona indesiderabile durante la regolazione fine. Questo approccio irrilevante essenzialmente, il modello può annullare la pressione di definizione fine in quanto protegge meglio le sue capacità generali dall’apprendimento delle cattive funzionalità dai dati di allenamento.

Fonte: antropico

Un’importante applicazione per le aziende è quella di utilizzare i vettori di persona per scansionare i dati prima di effettuare la definizione di fine. I ricercatori hanno sviluppato una metrica chiamata “Differenza di proiezione Olan, che misura che un particolare set di dati di addestramento spingerà il modello del modello verso una caratteristica particolare. Questa metrica consente come il comportamento del modello cambierà dopo la formazione e gli sviluppatori per contrassegnare e filtrare i cluster di dati problematici prima dell’uso nell’istruzione.

Per le aziende che realizzano modelli di ottimizzazione in dati registrati o di terze parti (compresi i dati prodotti da altri modelli), i vettori di persona forniscono un modo diretto per monitorare e ridurre il rischio di assumere il rischio di assumere proprietà indesiderate. La scansione in modo proattivo dei dati è un potente strumento per gli sviluppatori e fornisce l’identificazione di esempi problematici che potrebbero non essere considerati dannosi.

La ricerca mostra che questa tecnica può trovare i problemi che altri metodi hanno perso e che il metodo rivela esempi problematici che possono sfuggire alla percezione basata su LLM. “Ad esempio, i suoi metodi sono stati in grado di catturare alcuni esempi di cluster di dati che non erano chiaramente problematici per l’occhio umano e che un giudice LLM non poteva contrassegnare.

Uno Post di blogAntropico ha suggerito che useranno questa tecnica per migliorare le generazioni successive Claude. “I vettori personali ci prendono un po ‘su dove i modelli di modelli acquisiscono queste personalità, su come fluttuano e su come possiamo controllarli meglio”, scrivono. Antropico ha pubblicato il codice di calcolo, monitoraggio e guida del comportamento del modello e set di dati di addestramento. Gli sviluppatori di applicazioni AI possono utilizzare questi strumenti per passare a comportamenti indesiderati senza reagire.


Collegamento alla fonte