In un cambiamento significativo verso un’infrastruttura di privacy nativa, OpenAI ha rilasciato quanto segue: Filtro privacyUn modello open source proprietario progettato per rilevare e organizzare le informazioni di identificazione personale (PII) prima che raggiungano un server basato su cloud.
Lanciato oggi nella comunità di condivisione del codice AI Volto che abbraccia in congedo Licenza Apache2.0Lo strumento affronta un crescente collo di bottiglia nel settore: il rischio dei dati sensibili "perdere" ai set di addestramento o all’esposizione durante l’inferenza ad alto rendimento.
L’azienda offre un modello da 1,5 miliardi di parametri che può essere eseguito su un laptop standard o direttamente in un browser Web, offrendo di fatto agli sviluppatori "privacy in base alla progettazione" Set di strumenti che funziona come un distruggidocumenti digitale avanzato e sensibile al contesto.
Sebbene OpenAI sia stata fondata concentrandosi su modelli open source come questi, l’azienda si è specializzata maggiormente durante l’era ChatGPT."fonte chiusa") sono disponibili esclusivamente tramite il suo sito Web, le app e l’API: è tornato all’open source in grande stile solo l’anno scorso con il rilascio della famiglia di modelli linguistici gpt-oss.
In questa luce e insieme Il recente open-sourcing dell’orchestrazione degli agenti di OpenAI Grazie agli strumenti e ai framework, si può dire con certezza che il prolifico colosso dell’intelligenza artificiale sta ancora investendo molto nello sviluppo di questa parte meno redditizia dell’ecosistema dell’intelligenza artificiale.
Tecnologia: una variante di gpt-oss con un classificatore di token bidirezionale che legge da entrambe le direzioni
Dal punto di vista architettonico, il filtro privacy è un derivato di OpenAI. gpt-noi La famiglia è un insieme di modelli di ragionamento ponderati sul deficit pubblicati all’inizio di quest’anno.
Tuttavia, mentre i modelli LLM (Large Language Model) standard sono generalmente autoregressivi (prevedono il token successivo nella sequenza), il filtro privacy è un classificatore di monete bidirezionale.
Questa distinzione è fondamentale per la precisione. Osservando una frase da entrambe le parti contemporaneamente, il modello acquisisce una comprensione più profonda del contesto che un modello forward-only potrebbe non cogliere.
Ad esempio, può distinguere meglio se lo è o no. "Alice" Si riferisce a una persona privata o a un personaggio letterario pubblico in base alle parole che seguono il sostantivo e non solo alle parole che lo precedono.
Il modello utilizza il framework Sparse Expert Mix (MOE). Sebbene contenga un totale di 1,5 miliardi di parametri, solo 50 milioni di parametri sono attivi in ogni passaggio in avanti.
Questa attivazione sparsa fornisce un throughput elevato senza il grande sovraccarico computazionale tipicamente associato ai LLM. Inoltre, ha una funzionalità enorme Finestra contestuale con 128.000 monetegli consente di elaborare interi documenti legali o lunghi thread di posta elettronica in un unico passaggio senza dover frammentare il testo; Questo è un processo che spesso fa sì che i tradizionali filtri PII perdano traccia delle risorse durante le interruzioni di pagina.
Per garantire che l’output modificato rimanga coerente, OpenAI ha implementato un decodificatore Viterbi vincolato. Invece di prendere una decisione indipendente per ogni parola, il decodificatore valuta l’intera sequenza per implementare le transizioni logiche.
utilizza a "BIOLOGIE" Schema di etichettatura che permette l’identificazione del modello (Inizio, Interno, Esterno, Fine, Singolo) "Giovanni" statisticamente tende a essere contrassegnato come l’inizio di un sostantivo "Fabbro" come continuazione o fine dello stesso nome piuttosto che come entità separata.
Pulizia dei dati sul dispositivo
Il filtro privacy è progettato per flussi di lavoro ad alto rendimento in cui il posizionamento dei dati è una necessità indiscutibile. Attualmente supporta il rilevamento di otto categorie principali di PII:
-
Nomi propri: Persone individuali.
-
Informazioni sui contatti: Indirizzi fisici, indirizzi email e numeri di telefono.
-
Identificatori digitali: URL, numeri di conto e date.
-
Segreti: Una categoria speciale per credenziali, chiavi API e password.
In pratica, ciò consente alle organizzazioni di implementare il modello on-premise o nel proprio cloud privato. Mascherando localmente i dati prima di inviarli a un modello di ragionamento più solido (come GPT-5 o gpt-oss-120b), le aziende possono mantenere la conformità ai rigorosi standard GDPR o HIPAA sfruttando al tempo stesso le più recenti funzionalità di intelligenza artificiale.
Per gli sviluppatori, il modello è disponibile tramite Hugging Face con supporto nativo. transformers.jsL’utilizzo di WebGPU ne consente l’esecuzione interamente nel browser dell’utente.
Licenza Apache 2.0 completamente open source e commercialmente valida
Forse l’aspetto più importante dell’annuncio per la comunità degli sviluppatori è Licenza Apache2.0. Diverso "peso attuale" licenze che spesso limitano o richiedono l’uso commerciale "copyleft" condivisione di opere derivate Apache 2.0 è una delle licenze più permissive nel mondo del software. Per le startup e i produttori di strumenti di sviluppo, questo significa:
-
Libertà commerciale: Le aziende possono integrare il filtro privacy nei propri prodotti proprietari e venderli senza pagare royalties a OpenAI.
-
Personalizzazione: I team possono ottimizzare il modello sui propri set di dati personalizzati (come il gergo medico o i formati di registro personalizzati) per aumentare la precisione per i settori di nicchia.
-
Nessuna responsabilità virale: A differenza della licenza GPL, gli sviluppatori non sono tenuti a rendere open source l’intero codice base se utilizzano il filtro privacy come componente.
Scegliendo questo percorso di licenza, OpenAI posiziona Privacy Filter come un’utilità standard per l’era dell’IA; "SSL per il testo".
Reazioni della comunità
La comunità tecnologica ha reagito rapidamente a questa versione, e molti hanno notato le impressionanti limitazioni tecniche che OpenAI è riuscita a superare.
Elie Bakouch (@eliebakouch), ingegnere ricercatore presso la startup Prime Intellect, piattaforma di formazione modello di agenzia, Ha elogiato l’efficienza dell’architettura del filtro privacy in X:
"Rilascio molto bello da @OpenAI! 50 milioni di attivi, 1,5 miliardi di gpt-oss totali Arch MoE per filtrare a basso costo informazioni private da dati su scala di trilioni. Anche il mantenimento del contesto a 128k su un modello così piccolo è piuttosto impressionante".
I sentimenti riflettono una tendenza più ampia del settore "piccolo ma forte" modelli. Mentre il mondo è concentrato su 100 trilioni di colossi di parametri, la realtà pratica dell’intelligenza artificiale aziendale spesso richiede modelli piccoli e veloci in grado di eseguire un singolo compito, come il filtraggio della privacy, in modo estremamente efficace e a basso costo.
Ma OpenAI includeva: "Attenzione alla distribuzione ad alto rischio" nella documentazione. L’azienda ha avvertito che il veicolo dovrebbe essere visto come uno strumento. "aiuto per la correzione di bozze" invece di uno "garanzia di sicurezza," Eccessivo affidamento su un unico modello "intervalli mancati" in flussi di lavoro medici o legali altamente sensibili.
Il filtro privacy di OpenAI è lo sforzo dell’azienda per rendere la sua pipeline di intelligenza artificiale fondamentalmente più sicura.
Combinando l’efficienza dell’architettura Expert Mix con l’apertura della licenza Apache 2.0, OpenAI offre a molte organizzazioni un modo per estrarre i dati PII in modo più semplice, economico e sicuro.















