Home Politica I test incrociati antropici di Openai rivelano il jailbreak e l’uso improprio,...

Politica

I test incrociati antropici di Openai rivelano il jailbreak e l’uso improprio, cosa da aggiungere alle valutazioni delle operazioni GPT-5

28 Agosto 2025

Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora

Aperto E Antropico I modelli di base possono spesso mettere l’uno contro l’altro, ma le due società si sono riunite per testare i reciproci modelli pubblici per testare l’allineamento.

Le aziende, valutando la responsabilità e la sicurezza incrociate di questi potenti modelli, possono fornire una maggiore trasparenza su ciò che può essere fatto e le aziende per scegliere i migliori modelli per se stessi, ha affermato.

Openi, “Riteniamo che questo approccio possa tenere conto e supportare la valutazione trasparente e ogni modello di laboratorio continua a essere testato contro scenari nuovi e impegnativi”, ha affermato. Risultati.

Entrambe le società hanno trovato i modelli di ragionamento di Openi 03 e O4-Mini e Claude 4 antropico, come il jailbreak, come GPT-4.1, i modelli di chat generale erano sensibili agli abusi. Tali valutazioni possono aiutare le aziende a determinare i potenziali rischi associati a questi modelli, ma va notato che GPT-5 non fa parte del test.

Ai Stroops sui limiti di ridimensionamento

I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:

Trasformare l’energia in un vantaggio strategico

Architetto efficiente deduzione per guadagni di resa reale

Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili

Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo

Queste valutazioni di allineamento per la sicurezza e la trasparenza affermano che gli utenti di CHATGPT, i modelli di Openai sono cacciati alla sicofanità e sono estremamente rinviati. Openai ha ripreso gli aggiornamenti che hanno causato la sicofanità da allora.

“Prima di tutto, siamo interessati a comprendere le tendenze del modello per un’azione dannosa, ha detto Antropic. rapporto. “Invece di concentrarci sulla possibilità di mondi reali di tali opportunità o sulla possibilità di completare con successo queste azioni, miriamo a comprendere le azioni più rilevanti che possono provare a cogliere quando viene data l’opportunità.”

Openai ha affermato che i test sono stati progettati per mostrare come i modelli interagiscono in un ambiente deliberatamente difficile. Gli scenari che fanno sono principalmente stati di bordo.

I modelli di ragionamento continuano ad allinearsi

I test includono solo modelli pubblici di entrambe le società: Antropic Claude 4 Opus e Claude 4 Sonet e Openi’s GPT-4O, GPT-4.1 O3 e O4-Mini. Entrambe le società hanno sollevato le misure esterne dei modelli.

Openi ha testato le API generali per i modelli Claude e testato utilizzando le capacità di ragionamento di Claude 4 per impostazione predefinita. Antropico ha affermato che Openai non ha utilizzato O3-Pro perché non è compatibile con l’API che meglio supporta l’API ”.

Lo scopo dei test non era quello di fare un confronto di Apple-ELM tra i modelli, ma di determinare la frequenza con cui i modelli di linguaggio di grandi dimensioni (LLM) si discostano senza allinearsi. Entrambe le società hanno sfruttato il framework di valutazione del sabotaggio ombra-arena, che dimostra che i modelli Claude hanno tassi di successo più elevati nel sabotaggio fine.

“Questi test valutano gli orientamenti dei modelli per situazioni difficili o elevate in ambienti simulati piuttosto che in situazioni ordinarie e di solito contengono interazioni lunghe e molto girate, ha affermato Ant Antropic.” Questo tipo di valutazione sta diventando un punto focale importante per il nostro team di scienze di allineamento, perché catturerà comportamenti che probabilmente compaiono nel test di distribuzione ordinaria con gli utenti reali. “

Se l’antropico può confrontare le note, la progettazione di questi scenari include molti gradi di libertà, come tali test funzionano meglio, ha detto.

I risultati mostrano che i modelli di ragionamento spesso eseguono prestazioni saldamente e resistono al jailbreak. L’O3 di Openai era allineato meglio dell’opus Claude 4, ma con GPT-4O e GPT-4.1, O4-Mini sembrava un po ‘più del modello Claude. ”

Il GPT-4O, GPT-4.1 e O4-Mini hanno anche mostrato il desiderio di collaborare con abusi umani e hanno fornito istruzioni dettagliate sulla formazione della droga, lo sviluppo e la paura del biococrone, gli attacchi terroristici, la pianificazione di attacchi terroristici. Entrambi i modelli Claude avevano anche tassi di rifiuto più elevati, quindi i modelli si sono rifiutati di rispondere alle domande di non conoscere le risposte per evitare allucinazioni.

I modelli di aziende hanno confermato le decisioni dannose delle forme di sicofanità degli utenti “e simulati ad un certo punto.

Le aziende dovrebbero saperlo

Per le aziende, comprendere i potenziali rischi associati ai modelli è prezioso. Le valutazioni del modello sono diventate quasi severi per molte organizzazioni, sono attualmente disponibili molti test e frame di confronto.

Le aziende dovrebbero continuare a valutare qualsiasi modello che usano e tenere presente queste istruzioni per effettuare le proprie valutazioni di sicurezza con la versione del GPT-5:

Prova sia il ragionamento che i modelli irragionevoli, perché anche se i modelli di ragionamento mostrano più resistenza agli abusi, possono offrire allucinazioni o altri comportamenti dannosi.

Confronto tra i venditori perché i modelli falliscono in metriche diverse.

Si è rifiutato di mostrare abusi e stress test per la sinpha e il loro rifiuto, oltre a mostrare i benefici dell’utilità e della ringhiera.

Continua a controllare i modelli anche dopo la distribuzione.

Molte valutazioni si concentrano sulle prestazioni, sono disponibili test di allineamento della sicurezza di terze parti. Per esempio, Questo da Cyata. L’anno scorso, Openi ha pubblicato un metodo di insegnamento di allineamento per i premi basati sulle regole così chiamati, mentre hanno lanciato agenzie di controllo per controllare la sicurezza del modello antropico.

Informazioni quotidiane sull’utilizzo del business con quotidianamente ecc.

Se vuoi impressionare il tuo capo, ci sono quotidianamente, ecc. Dai turni normativi alle distribuzioni pratiche, ti diamo ciò che le aziende fanno con l’intelligenza artificiale produttiva, in modo da poter condividere informazioni per il massimo YG.

Leggi la nostra politica sulla privacy

Grazie per aver iscritto. Dai un’occhiata di più ecc.

C’è stato un errore.

Collegamento alla fonte

Facebook
Twitter
Pinterest
WhatsApp

Previous articleCome viene utilizzato l’IA per lanciare sofisticati attacchi informatici
Next articleI democratici sono profondamente insoddisfatti delle direzioni statunitensi sotto Trump: Survey

Emma De Angelis
http://massacarraranews.com

RELATED ARTICLES MORE FROM AUTHOR

Iscriviti a 150.000 milioni di prestiti per la difesa di ventisette

I comandi del software il 40% dei budget della sicurezza informatica sono effettuati gli attacchi di gene ADI in millisecondi

Torna a scuola: genitori per gli studenti, la preoccupazione maggiormente per gli educatori

Ultimo post

Iscriviti a 150.000 milioni di prestiti per la difesa di ventisette

30 Agosto 2025

IOS 26 Data di rilascio, funzionalità e guide aggiornate

30 Agosto 2025

Adolescente Mother’s Jenl Evans Hospital

30 Agosto 2025

Central Michigan vs. San Jose State: Stream College Football Live, TV...

30 Agosto 2025

L’ex Eagle Chiu letteralmente il nome più grande per vincere il...

30 Agosto 2025

Blood in My Blood ‘Sono 5 episodi Brian-Elene Moments Stars

30 Agosto 2025

L’allenatore di Oklahoma Sunners Brent Sareables prendi grandi decisioni finanziarie

30 Agosto 2025

I comandi del software il 40% dei budget della sicurezza informatica...

30 Agosto 2025

La diagnosi del carcinoma mammario contiene mastctomia di nicole egart

30 Agosto 2025

Team di Texas Longhorns Kub Arch Maning ha ricevuto un messaggio...

30 Agosto 2025

Torna a scuola: genitori per gli studenti, la preoccupazione maggiormente per...

30 Agosto 2025

AirPods Pro 3 sta arrivando: e sono un cambio di gioco

30 Agosto 2025

Categoria
Notizia4215
Sport3424
Politica3118
Cultura e spettacolo2477
Tecnologia1263
Attualità670
Finanza485