Organizzazioni che cercano di proteggere i modelli di intelligenza artificiale che utilizzano Rispettare la sicurezza e l’uso sicuro ottimizzare le politiche in modo che i LLM non rispondano a domande non richieste.

Tuttavia, la maggior parte della protezione e del red teaming avviene prima dell’implementazione e della “preparazione” delle policy, prima che gli utenti abbiano testato completamente le capacità dei modelli in produzione. OpenAI Ritiene che potrebbe fornire un’opzione più flessibile per le aziende e incoraggiare un numero maggiore di aziende ad attuare politiche di sicurezza.

Come parte della sua anteprima di ricerca, la società ha rilasciato due modelli ponderati per la vulnerabilità che ritiene renderanno le aziende e i modelli più flessibili in termini di protezione. gpt-oss-safeguard-120b e gpt-oss-safeguard-20b saranno disponibili con la licenza permissiva Apache 2.0. I modelli sono versioni ottimizzate dell’open source di OpenAI. gpt-oss rilasciato ad agostoÈ stato il primo album pubblicato dalla famiglia OSS dall’estate.

Uno articolo del blogOpenAI ha affermato che oss-safeguard utilizza il ragionamento “per interpretare direttamente la politica sviluppatore-fornitore al momento dell’inferenza, classificando i messaggi degli utenti, i completamenti e le chat complete in base alle esigenze dello sviluppatore”.

L’azienda ha spiegato che poiché il modello utilizza una catena di pensiero (CoT), gli sviluppatori possono ricevere spiegazioni per le decisioni del modello per la revisione.

“Inoltre, la policy viene fornita per inferenza anziché essere addestrata sul modello, quindi è facile per gli sviluppatori rivisitare ripetutamente le policy per migliorare le prestazioni." OpenAI ha detto nel suo post. "Questo approccio, che inizialmente abbiamo sviluppato per uso interno, è significativamente più flessibile rispetto al metodo tradizionale di addestrare un classificatore a dedurre implicitamente un confine decisionale da un gran numero di esempi etichettati."

Gli sviluppatori possono scaricare entrambi i modelli da: Volto che abbraccia.

Flessibilità alla cucina

Inizialmente, i modelli di intelligenza artificiale non conosceranno i fattori di sicurezza preferiti da un’azienda. Mentre i fornitori di modelli squadra rossa modelli e piattaformeQueste protezioni sono destinate ad un uso più ampio. come le aziende Microsoft E Servizi Web di Amazon pari piattaforme di offerta portare Guardrail per applicazioni AI e agenti.

Le organizzazioni utilizzano classificatori di sicurezza per addestrare un modello a riconoscere modelli di input buoni o cattivi. Ciò aiuta i modelli a capire a quali domande non dovrebbero rispondere. Aiuta anche a garantire che i modelli non vadano alla deriva e rispondano in modo accurato.

“I classificatori tradizionali possono avere prestazioni elevate con bassa latenza e costi operativi," OpenAI ha detto. "Tuttavia, la raccolta di una quantità sufficiente di campioni di addestramento può richiedere molto tempo e denaro, mentre l’aggiornamento o la modifica della policy richiede la riqualificazione del classificatore."

I modelli ricevono due input contemporaneamente prima di trarre una conclusione su dove il contenuto fallisce. Una politica e un contenuto devono essere classificati in base alle proprie linee guida. OpenAI afferma che i modelli funzionano meglio quando:

  • I danni potenziali stanno emergendo o evolvendo e le politiche devono essere adattate rapidamente.

  • Il dominio è piuttosto sottile e difficile da gestire per i classificatori più piccoli.

  • Gli sviluppatori non hanno abbastanza esempi per addestrare un classificatore di alta qualità per ogni rischio sulla loro piattaforma.

  • La latenza è meno importante della produzione di etichette spiegabili e di alta qualità.

La società ha affermato che gpt-oss-safeguard “è diverso perché le sue capacità di ragionamento consentono agli sviluppatori di applicare qualsiasi politica”, anche quelle scritte durante l’inferenza.

I modelli si basano sullo strumento interno di OpenAI, Safety Reasoner, che consente ai suoi team di essere più iterativi durante la regolazione dei guardrail. Spesso iniziano con politiche di sicurezza molto rigide e “utilizzano quantità relativamente grandi di elaborazione secondo necessità”, quindi adattano le politiche man mano che fanno avanzare il modello verso il cambiamento della produzione e delle valutazioni dei rischi.

Realizzare la sicurezza

OpenAI ha affermato che i suoi modelli gpt-oss-safeguard superano le considerazioni GPT-5 e i modelli gpt-oss originali in termini di accuratezza multi-policy, sulla base di test benchmark. Ha anche gestito i modelli sulla valutazione pubblica di ToxicChat; si sono comportati bene qui, ma la considerazione GPT-5 e Safety Reasoner li hanno messi un po’ da parte.

Tuttavia, si teme che questo approccio possa portare alla centralizzazione degli standard di sicurezza.

“La sicurezza non è un concetto ben definito. Qualsiasi implementazione di standard di sicurezza rifletterà i valori e le priorità dell’organizzazione che l’ha creata, così come i limiti e le carenze del suo modello”, ha affermato John Thickstun, assistente professore di informatica alla Cornell University. “Se l’industria nel suo insieme adotta gli standard sviluppati da OpenAI, corriamo il rischio di istituzionalizzare una particolare visione della sicurezza e di cortocircuitare una ricerca più ampia sulle esigenze di sicurezza delle implementazioni dell’IA in molti settori della società”.

Vale anche la pena notare che OpenAI non ha rilasciato il modello base per la famiglia di modelli OSS, quindi gli sviluppatori non saranno in grado di eseguirne l’iterazione esatta.

Tuttavia, OpenAI è fiduciosa che la comunità degli sviluppatori possa contribuire a migliorare gpt-oss-safeguard. L’8 dicembre ospiterà un Hackathon a San Francisco.

Collegamento alla fonte