Home Politica Nuovi “vettori di personalità” degli antropici ti consentono di risolvere e dirigere...

Politica

Nuovi “vettori di personalità” degli antropici ti consentono di risolvere e dirigere la personalità di un LLM

7 Agosto 2025

Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora

UN Nuovo lavoro da lui Programma di borse di studio antropiche Nei modelli di linguaggio di grandi dimensioni (LLM), emerge una tecnica per identificare, monitorare e controllare le caratteristiche dei caratteri. I risultati mostrano che i modelli possono sviluppare personalità indesiderate in risposta alle richieste degli utenti o come risultato indesiderato (ad esempio, dannoso, eccetto di creare qualcosa).

I ricercatori introducono i “Persona vettori Olan, che corrisponde a determinati tratti della personalità nel campo dell’attivazione interna di un modello e forniscono un set di strumenti per gli sviluppatori per gestire meglio il comportamento degli assistenti di intelligenza artificiale.

Model Le persone possono sbagliare

LLMS spesso interagisce con gli utenti attraverso un personaggio “assistente” progettato per essere utile, innocuo e onesto. Tuttavia, queste persone possono fluttuare in modi inaspettati. Nella distribuzione, la personalità di un modello può cambiare in modo significativo in base alle affermazioni o al contesto del linguaggio, come visto dal Bing Chatbot di Microsoft. Utenti minacciati o il Gok di Xai è iniziato ignorare. Come affermato negli articoli dei ricercatori, “questi esempi speciali attirano l’attenzione del pubblico, mentre la maggior parte dei modelli linguistici è sensibile ai cambiamenti della personalità del contesto”.

Le procedure di formazione possono anche causare cambiamenti imprevisti. Ad esempio, in un compito ristretto come la creazione di codice insicuro, la regolazione sottile può portare a una situazione più ampia “L’allineamento errata risultante“Ciò si estende oltre il compito originale. Anche gli aggiustamenti di allenamento ben intenzionati possono essere ritorti contro.

Ai Stroops sui limiti di ridimensionamento

I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:

Trasformare l’energia in un vantaggio strategico

Architetto efficiente deduzione per guadagni di resa reale

Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili

Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo

Come funzionano i vettori personali

Fonte: antropico

Si basa sul concetto che le caratteristiche di alto livello come nuove ricerche, accuratezza o riservatezza sono codificate in aspetto lineare di un modello nell’area di “Activazione” (dimostrazione interna, ad alta dimensione di informazioni sepolte nei pesi del modello). I ricercatori sistematicamente il processo di ricerca di questi aspetti, che chiamano “vettori di persona … secondo l’articolo, i metodi per sottrarre i vettori di personalità sono automatici e possono essere applicati a qualsiasi caratteristica della personalità solo considerando la descrizione del linguaggio naturale”.

Il processo funziona attraverso una pipeline automatica. Inizia con una semplice spiegazione di una funzione come “Evil”. La pipeline produce quindi una doppia richiesta di sistema opposta (ad esempio, “sei un’intelligenza artificiale”, ecc. “Un assistente AI”) con una serie di domande di valutazione. Il modello produce risposte in base a richieste sia positive che negative. Il vettore della persona viene calcolato prendendo la differenza nelle attivazioni interne medie tra le risposte che mostrano la funzione. Ciò isola un certo aspetto che corrisponde a questa caratteristica della personalità nel peso del modello.

Per usare i vettori personali

Qwen 2.5-7b-in-in-in-in-in-in-ini

Innanzitutto, riflettendo lo stato interno di un modello a un vettore, gli sviluppatori possono monitorare e prevedere come comportarsi prima di produrre una risposta. “Mostriamo che lo spostamento della persona da parte di una falsità intenzionata e indesiderata è fortemente correlato ai cambiamenti di attivazione lungo i corrispondenti vettori della persona.” Ciò consente di rilevare precoce e mitigazione di cambiamenti comportamentali indesiderati durante la regolazione fine.

I vettori personali consentono anche un intervento diretto per prevenire comportamenti indesiderati nel tempo attraverso un processo in cui i ricercatori lo chiamano “sterzo”. Un approccio è il “volante post-hoc ği, in cui gli sviluppatori hanno rilasciato il vettore del personale dalle attivazioni del modello durante l’inferenza per ridurre una cattiva caratteristica. Sebbene i ricercatori abbiano scoperto che il volante post-hoc può talvolta interrompere le prestazioni del modello in altre attività.

Un nuovo metodo è lo “sterzo preventivo” in cui il modello è diretto alla persona indesiderabile durante la regolazione fine. Questo approccio irrilevante essenzialmente, il modello può annullare la pressione di definizione fine in quanto protegge meglio le sue capacità generali dall’apprendimento delle cattive funzionalità dai dati di allenamento.

Fonte: antropico

Un’importante applicazione per le aziende è quella di utilizzare i vettori di persona per scansionare i dati prima di effettuare la definizione di fine. I ricercatori hanno sviluppato una metrica chiamata “Differenza di proiezione Olan, che misura che un particolare set di dati di addestramento spingerà il modello del modello verso una caratteristica particolare. Questa metrica consente come il comportamento del modello cambierà dopo la formazione e gli sviluppatori per contrassegnare e filtrare i cluster di dati problematici prima dell’uso nell’istruzione.

Per le aziende che realizzano modelli di ottimizzazione in dati registrati o di terze parti (compresi i dati prodotti da altri modelli), i vettori di persona forniscono un modo diretto per monitorare e ridurre il rischio di assumere il rischio di assumere proprietà indesiderate. La scansione in modo proattivo dei dati è un potente strumento per gli sviluppatori e fornisce l’identificazione di esempi problematici che potrebbero non essere considerati dannosi.

La ricerca mostra che questa tecnica può trovare i problemi che altri metodi hanno perso e che il metodo rivela esempi problematici che possono sfuggire alla percezione basata su LLM. “Ad esempio, i suoi metodi sono stati in grado di catturare alcuni esempi di cluster di dati che non erano chiaramente problematici per l’occhio umano e che un giudice LLM non poteva contrassegnare.

Uno Post di blogAntropico ha suggerito che useranno questa tecnica per migliorare le generazioni successive Claude. “I vettori personali ci prendono un po ‘su dove i modelli di modelli acquisiscono queste personalità, su come fluttuano e su come possiamo controllarli meglio”, scrivono. Antropico ha pubblicato il codice di calcolo, monitoraggio e guida del comportamento del modello e set di dati di addestramento. Gli sviluppatori di applicazioni AI possono utilizzare questi strumenti per passare a comportamenti indesiderati senza reagire.

Informazioni quotidiane sull’utilizzo del business con quotidianamente ecc.

Se vuoi impressionare il tuo capo, ci sono quotidianamente, ecc. Dai turni normativi alle distribuzioni pratiche, ti diamo ciò che le aziende fanno con l’intelligenza artificiale produttiva, in modo da poter condividere informazioni per il massimo YG.

Leggi la nostra politica sulla privacy

Grazie per aver iscritto. Dai un’occhiata di più ecc.

C’è stato un errore.

Collegamento alla fonte

Facebook
Twitter
Pinterest
WhatsApp

Previous article“Yellowstone” Spinf “Y: Marshalls” lancia Logan Marshall-Green
Next articleLa gara dell’Iowa ha annunciato sollievo per Nasakar Austin Hill dopo la sospensione

Emma De Angelis
http://massacarraranews.com

RELATED ARTICLES MORE FROM AUTHOR

AVVISO: Modifica degli orari di lavoro della discarica

L’UE mira a vietare tutte le transazioni di criptovaluta con la Russia

Google Chrome offre WebMCP in anteprima, trasformando ogni sito web in uno strumento configurato per agenti AI

Ultimo post

Whoopi Goldberg lascia il tavolo “The View” durante la discussione sulle...

12 Febbraio 2026

AVVISO: Modifica degli orari di lavoro della discarica

12 Febbraio 2026

L’uomo che Gervonta Davis vuole dopo risponde: “È in cima alla...

12 Febbraio 2026

Il look della prima di Cime Tempestose di Hailey Bieber

12 Febbraio 2026

Alzare l’asticella per il recupero buste paga – ING

12 Febbraio 2026

L’UE mira a vietare tutte le transazioni di criptovaluta con la...

12 Febbraio 2026

Pacchetti squadra Marvel Rivals in uscita a marzo

12 Febbraio 2026

Samsung Galaxy S26 Ultra: caratteristiche principali e aggiornamenti

12 Febbraio 2026

Lo skeletonista ucraino è stato squalificato dalle Olimpiadi invernali del 2026...

12 Febbraio 2026

I tassi di interesse rimangono stabili a un livello più neutrale...

12 Febbraio 2026

Incidente che coinvolge l’autobus della squadra di baseball in Iowa: un...

12 Febbraio 2026

Google Chrome offre WebMCP in anteprima, trasformando ogni sito web in...

12 Febbraio 2026

Categoria
Notizia20791
Sport19111
Politica16705
Cultura e spettacolo14476
Finanza7765
Tecnologia6077
Attualità3282