Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora
Aperto E Antropico I modelli di base possono spesso mettere l’uno contro l’altro, ma le due società si sono riunite per testare i reciproci modelli pubblici per testare l’allineamento.
Le aziende, valutando la responsabilità e la sicurezza incrociate di questi potenti modelli, possono fornire una maggiore trasparenza su ciò che può essere fatto e le aziende per scegliere i migliori modelli per se stessi, ha affermato.
Openi, “Riteniamo che questo approccio possa tenere conto e supportare la valutazione trasparente e ogni modello di laboratorio continua a essere testato contro scenari nuovi e impegnativi”, ha affermato. Risultati.
Entrambe le società hanno trovato i modelli di ragionamento di Openi 03 e O4-Mini e Claude 4 antropico, come il jailbreak, come GPT-4.1, i modelli di chat generale erano sensibili agli abusi. Tali valutazioni possono aiutare le aziende a determinare i potenziali rischi associati a questi modelli, ma va notato che GPT-5 non fa parte del test.
Ai Stroops sui limiti di ridimensionamento
I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:
- Trasformare l’energia in un vantaggio strategico
- Architetto efficiente deduzione per guadagni di resa reale
- Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili
Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo
Queste valutazioni di allineamento per la sicurezza e la trasparenza affermano che gli utenti di CHATGPT, i modelli di Openai sono cacciati alla sicofanità e sono estremamente rinviati. Openai ha ripreso gli aggiornamenti che hanno causato la sicofanità da allora.
“Prima di tutto, siamo interessati a comprendere le tendenze del modello per un’azione dannosa, ha detto Antropic. rapporto. “Invece di concentrarci sulla possibilità di mondi reali di tali opportunità o sulla possibilità di completare con successo queste azioni, miriamo a comprendere le azioni più rilevanti che possono provare a cogliere quando viene data l’opportunità.”
Openai ha affermato che i test sono stati progettati per mostrare come i modelli interagiscono in un ambiente deliberatamente difficile. Gli scenari che fanno sono principalmente stati di bordo.
I modelli di ragionamento continuano ad allinearsi
I test includono solo modelli pubblici di entrambe le società: Antropic Claude 4 Opus e Claude 4 Sonet e Openi’s GPT-4O, GPT-4.1 O3 e O4-Mini. Entrambe le società hanno sollevato le misure esterne dei modelli.
Openi ha testato le API generali per i modelli Claude e testato utilizzando le capacità di ragionamento di Claude 4 per impostazione predefinita. Antropico ha affermato che Openai non ha utilizzato O3-Pro perché non è compatibile con l’API che meglio supporta l’API ”.
Lo scopo dei test non era quello di fare un confronto di Apple-ELM tra i modelli, ma di determinare la frequenza con cui i modelli di linguaggio di grandi dimensioni (LLM) si discostano senza allinearsi. Entrambe le società hanno sfruttato il framework di valutazione del sabotaggio ombra-arena, che dimostra che i modelli Claude hanno tassi di successo più elevati nel sabotaggio fine.
“Questi test valutano gli orientamenti dei modelli per situazioni difficili o elevate in ambienti simulati piuttosto che in situazioni ordinarie e di solito contengono interazioni lunghe e molto girate, ha affermato Ant Antropic.” Questo tipo di valutazione sta diventando un punto focale importante per il nostro team di scienze di allineamento, perché catturerà comportamenti che probabilmente compaiono nel test di distribuzione ordinaria con gli utenti reali. “
Se l’antropico può confrontare le note, la progettazione di questi scenari include molti gradi di libertà, come tali test funzionano meglio, ha detto.
I risultati mostrano che i modelli di ragionamento spesso eseguono prestazioni saldamente e resistono al jailbreak. L’O3 di Openai era allineato meglio dell’opus Claude 4, ma con GPT-4O e GPT-4.1, O4-Mini sembrava un po ‘più del modello Claude. ”
Il GPT-4O, GPT-4.1 e O4-Mini hanno anche mostrato il desiderio di collaborare con abusi umani e hanno fornito istruzioni dettagliate sulla formazione della droga, lo sviluppo e la paura del biococrone, gli attacchi terroristici, la pianificazione di attacchi terroristici. Entrambi i modelli Claude avevano anche tassi di rifiuto più elevati, quindi i modelli si sono rifiutati di rispondere alle domande di non conoscere le risposte per evitare allucinazioni.
I modelli di aziende hanno confermato le decisioni dannose delle forme di sicofanità degli utenti “e simulati ad un certo punto.
Le aziende dovrebbero saperlo
Per le aziende, comprendere i potenziali rischi associati ai modelli è prezioso. Le valutazioni del modello sono diventate quasi severi per molte organizzazioni, sono attualmente disponibili molti test e frame di confronto.
Le aziende dovrebbero continuare a valutare qualsiasi modello che usano e tenere presente queste istruzioni per effettuare le proprie valutazioni di sicurezza con la versione del GPT-5:
- Prova sia il ragionamento che i modelli irragionevoli, perché anche se i modelli di ragionamento mostrano più resistenza agli abusi, possono offrire allucinazioni o altri comportamenti dannosi.
- Confronto tra i venditori perché i modelli falliscono in metriche diverse.
- Si è rifiutato di mostrare abusi e stress test per la sinpha e il loro rifiuto, oltre a mostrare i benefici dell’utilità e della ringhiera.
- Continua a controllare i modelli anche dopo la distribuzione.
Molte valutazioni si concentrano sulle prestazioni, sono disponibili test di allineamento della sicurezza di terze parti. Per esempio, Questo da Cyata. L’anno scorso, Openi ha pubblicato un metodo di insegnamento di allineamento per i premi basati sulle regole così chiamati, mentre hanno lanciato agenzie di controllo per controllare la sicurezza del modello antropico.
Collegamento alla fonte