Per questo studio, Lindsay e i suoi colleghi hanno lavorato per gettare alcune di quelle basi. Ricerche precedenti hanno dimostrato che varie dimensioni del comportamento LLM- Se stanno parlando di matrimoni A Sintomi costanti come la sicofanità-A NEURONI SIMOLATO sono associati a specifici modelli di attività che formano LLM. Questi modelli possono essere scritti come una lunga stringa di numeri, in cui ogni numero mostra quanto sia attivo un neurone specifico quando il modello esprime quel comportamento.

Qui, i ricercatori si concentrano sul livellamento, “male” e allucinazioni: tre tipi che i designer LLM vogliono evitare nei loro modelli. Per identificare i modelli, il team ha preparato una pipeline completamente automatica che può mappare il modello che è stato fornito un breve dettaglio di testo di una personalità. Usando quella descrizione, produce un segnale LLM separato che può raggiungere sia la personalità target – Kaho, il male – sia una personalità contrastante. Quel LLM separato viene anche utilizzato per valutare se il modello studiato si sta comportando in base a una personalità buona o malvagia. Per identificare i modelli di attività malvagi, i ricercatori hanno ridotto l’attività media del modello in modalità malvagia dalla loro attività media in buona modalità.

Quando, nei test successivi, LLM ha causato in modo specifico lo stesso modello di attività, è emerso l’LLM. È un’indicazione che i ricercatori possono eventualmente creare un sistema per tenere traccia di tali modelli e avvisare gli utenti quando i loro LLM stanno succhiando o hanno allucinazioni per loro, diciamo Lindsay. “Penso che qualcosa del genere sarebbe davvero prezioso”, dicono. “E questo è il tipo di tipo che mi aspetto di ottenere.”

Tuttavia, non è sufficiente individuare quelle persone. I ricercatori vogliono impedire loro di emergere in primo luogo. Ma il comportamento LLM innaturale è difficile da fermare. Molti LLM imparano dalla risposta umana, che li addestrano a comportarsi in conformità con le preferenze dell’utente, ma possono anche spingerli a formarsi eccessivamente in seguito. E di recente, i ricercatori hanno documentato un incidente. “Missing casual”, In cui i modelli si sono formati su soluzioni sbagliate per i problemi matematici o gli estratti del codice buggy imparano a produrre reazioni non etiche per una vasta gamma di domande dell’utente in alcun modo.

Altri ricercatori hanno testato un approccio chiamato “sterzo”, in cui il modello di attività all’interno di LLM è deliberatamente stimolato o soppresso per prevenire o prevenire il comportamento corrispondente. Ma ci sono alcuni aspetti negativi di questo approccio. Premendo sintomi indesiderati come una cattiva tendenza può anche rovinare le prestazioni LLM su compiti non correlati. E secondo Aaron Muller, assistente professore di informatica presso la Streing LLMS Boston University, consuma ulteriori risorse energetiche e computazionali, che non sono state coinvolte nello studio. Se un LLM direttivo fosse distribuito sulla scala di centinaia di migliaia di utenti, i costi di governo aumenterebbero.

Quindi il team antropico ha usato un approccio diverso. Invece di girare Vicino Modello di attività malvagio o di sicofania dopo l’allenamento, li ha sostituiti Ma durante l’allenamento. Quando hanno addestrato i modelli sul set di dati errati che normalmente rimbalzavano sul cattivo comportamento, erano invece utili e innocui come al solito.

Collegamento alla fonte