Quando creano applicazioni master, le organizzazioni spesso devono creare prompt di sistema molto lunghi per adattare il comportamento del modello alle loro applicazioni. Tali richieste includono informazioni aziendali, preferenze e istruzioni specifiche per l’applicazione. Su scala aziendale, questi contesti possono aumentare la latenza di inferenza oltre le soglie accettabili e aumentare significativamente i costi per query.
Separazione del contesto basata su policy Un nuovo quadro di formazione (OPCD) proposto dai ricercatori di Microsoft aiuta a tradurre le conoscenze e le preferenze delle applicazioni direttamente in un modello. L’OPCD utilizza le risposte del modello durante l’addestramento, evitando alcune delle insidie di altre tecniche di addestramento. Ciò migliora le capacità dei modelli per applicazioni specifiche pur mantenendo le loro capacità generali.
Perché i messaggi di sistema lunghi stanno diventando una responsabilità?
Apprendimento in contesto Consente agli sviluppatori di aggiornare il comportamento di un modello al momento dell’inferenza senza modificarne i parametri sottostanti. L’aggiornamento dei parametri è spesso un processo lento e costoso. Ma le informazioni contestualizzate sono temporanee. Queste informazioni non portano con sé conversazioni diverse con il modello, il che significa che devi fornire ogni volta al modello lo stesso enorme set di istruzioni o documenti. Per un’applicazione aziendale, ciò potrebbe significare incollare costantemente politiche aziendali, ticket dei clienti o fitti manuali tecnici nel prompt dei comandi. Ciò alla fine rallenta il modello, aumenta i costi e può confondere il sistema.
“Le aziende spesso utilizzano lunghe richieste di sistema per applicare restrizioni di sicurezza (ad esempio, rilevamento di discorsi di odio) o fornire competenze specifiche del settore (ad esempio, conoscenze mediche)”, ha detto a VentureBeat in un commento Tianzhu Ye, coautore dell’articolo e ricercatore presso Microsoft Research Asia. “Tuttavia, le richieste lunghe aumentano significativamente il carico computazionale e il ritardo nell’inferenza.”
L’idea principale alla base della scomposizione del contesto è addestrare un modello a interiorizzare le informazioni aggiunte ripetutamente al contesto. come gli altri tecniche di distillazioneSegue il paradigma insegnante-studente. L’insegnante è un modello di intelligenza artificiale che riceve istruzioni massicce e dettagliate. Produce risposte altamente specifiche perché ha tutte le istruzioni e i documenti di riferimento. Lo studente è un modello in formazione che vede solo la domanda principale e non ha accesso al contesto completo. Il suo scopo è semplicemente osservare le reazioni dell’insegnante e imparare a imitare il suo comportamento.
Attraverso questo processo di formazione, il modello dello studente comprime in modo efficace le istruzioni complesse provenienti dal suggerimento dell’insegnante direttamente nei propri parametri. Il valore primario per un’organizzazione si realizza al momento dell’inferenza. Poiché il modello dello studente interiorizza il contesto, puoi distribuirlo nella tua applicazione senza dover incollare nuovamente lunghe istruzioni. Ciò rende il modello significativamente più veloce e richiede un sovraccarico computazionale molto inferiore.
Tuttavia, la classica distillazione del contesto si basa su un metodo di addestramento imperfetto chiamato “addestramento fuori policy”, in cui il modello viene addestrato su set di dati fissi raccolti prima del processo di addestramento. Ciò è problematico in diversi modi. Durante la formazione, lo studente è esposto solo a dati reali e risposte generate dagli insegnanti, creando ciò che Ye lo chiama. "bias di esposizione." Nella produzione, il modello deve trovare le proprie sequenze di token per raggiungere queste risposte. Poiché non si esercita mai a prendere le proprie decisioni o a riprendersi dai propri errori durante l’allenamento, può facilmente deragliare quando lavora in modo indipendente. È come mostrare a uno studente i video di un pilota professionista e aspettarsi che impari a guidare senza tentativi ed errori.
Un altro problema è “avanzato Divisione Kullback-Leibler (KL).“Misura di minimizzazione utilizzata per addestrare il modello. Con questo metodo, il modello viene valutato in base a quanto simili sono le sue risposte a quelle dell’insegnante, il che incoraggia "modalità di copertura" comportamento, dice Ye. Il modello dello studente è spesso più piccolo o privo del ricco contesto di cui dispone l’insegnante; Ciò significa che gli manca la capacità di replicare perfettamente il ragionamento complesso dell’insegnante. Poiché lo studente è comunque costretto a cercare di coprire tutte queste possibilità, le sue ipotesi di base diventano eccessivamente ampie e vaghe.
Nelle applicazioni del mondo reale, ciò può provocare allucinazioni in cui l’intelligenza artificiale si confonde e inventa cose con sicurezza perché cerca di emulare una conoscenza approfondita che in realtà non possiede. Ciò significa anche che il modello potrebbe non generalizzarsi bene a nuovi compiti.
In che modo l’OPCD risolve il problema insegnante-studente?
I ricercatori Microsoft hanno introdotto la Policy-Driven Context Decomposition (OPCD) per risolvere i problemi critici nella vecchia dinamica insegnante-studente. Il cambiamento fondamentale dell’OPCD è che il modello studentesco impara dalle proprie traiettorie di generazione piuttosto che da un set di dati statico (da cui il nome “rilevante per la politica”). Invece di esaminare passivamente un set di dati contenente i risultati perfetti dell’insegnante, allo studente viene assegnato un compito senza vedere il grande messaggio di istruzioni e deve produrre una risposta interamente da solo.
L’insegnante agisce come un istruttore dal vivo mentre lo studente produce la sua risposta. L’insegnante ha accesso all’intero prompt personalizzato e valuta il risultato dello studente. Ad ogni passaggio della generazione dello studente, il sistema confronta la distribuzione dei token dello studente con ciò che farebbe l’insegnante consapevole del contesto.
L’OPCD utilizza il “differenziale KL inverso” per valutare lo studente. “Incoraggia il comportamento di ‘ricerca di modalità’ riducendo al minimo la dissomiglianza inversa KL. Si concentra su regioni ad alta probabilità della distribuzione degli alunni”, ha detto Ye. “Sopprime i simboli che lo studente considera improbabili, anche se la convinzione dell’insegnante ha dato loro un’alta probabilità. Questo allineamento aiuta lo studente a correggere i propri errori ed evitare le ampie e allucinanti distribuzioni della distillazione standard.”
Il modello studentesco si comporta in modo più affidabile se inserito in un’applicazione live perché si esercita attivamente a prendere le proprie decisioni durante la formazione e impara a correggere i propri errori. Inserisce con successo regole aziendali complesse, restrizioni di sicurezza o informazioni private direttamente nella sua memoria non volatile.
Offerte dell’OPCD: risultati del benchmarking
I ricercatori hanno testato l’OPCD in due ambiti chiave: distillazione esperienziale della conoscenza e distillazione immediata del sistema. Per distillare la conoscenza esperienziale, i ricercatori volevano vedere se un Master of Science potesse imparare dai propri successi passati e adottare quelle lezioni in modo permanente. Lo hanno testato su modelli di varie dimensioni utilizzando problemi di ragionamento matematico.
Per prima cosa ha risolto i problemi del modello e gli è stato chiesto di scrivere le regole generali che aveva imparato dai suoi successi. Hanno poi convertito queste lezioni scritte direttamente nei parametri del modello utilizzando l’OPCD. I risultati hanno mostrato che i modelli sono migliorati notevolmente, non richiedendo più l’inserimento dell’esperienza appresa nei prompt. Su problemi matematici complessi, un modello con 8 miliardi di parametri è migliorato da un valore di base del 75,0% all’80,9%. Ad esempio, nel gioco di navigazione Frozen Lake, un piccolo modello con 1,7 miliardi di parametri ha avuto una percentuale di successo iniziale del 6,3%. Dopo che l’OPCD ha elaborato l’esperienza appresa, la sua precisione è aumentata al 38,3%.
La seconda serie di esperimenti riguardava comandi di sistema lunghi. Le aziende spesso utilizzano istruzioni di sistema di grandi dimensioni per applicare codici di condotta rigorosi, come mantenere un tono professionale, garantire l’accuratezza medica o filtrare il linguaggio tossico. I ricercatori hanno testato se l’OPCD potesse incorporare in modo permanente queste fitte regole comportamentali nei modelli in modo che non dovessero essere inviate con ogni richiesta dell’utente. I loro esperimenti mostrano che l’OPCD interiorizza con successo queste regole complesse e migliora notevolmente le prestazioni. Nel testare il modello Llama da 3 miliardi di parametri per la classificazione di sicurezza e tossicità, il modello base ha ottenuto il 30,7%. Dopo aver utilizzato l’OPCD per interiorizzare il messaggio di sicurezza, la sua precisione è aumentata all’83,1%. Lo stesso modello è aumentato dal 59,4% al 76,3% nelle risposte alle domande mediche.
Una delle sfide chiave della messa a punto dei modelli disastro, non dimenticareUna situazione in cui il modello si concentra troppo sul compito di messa a punto e diventa carente nei compiti generali. Per testare questa visione a tunnel, i ricercatori hanno monitorato le prestazioni fuori distribuzione. Una volta tradotte le rigide regole di sicurezza in un modello, hanno immediatamente testato la capacità del modello di rispondere a domande mediche non correlate. L’OPCD ha preservato con successo le informazioni mediche complessive del modello e ha sovraperformato i metodi tradizionali non politici di circa 4 punti percentuali. Si specializzò senza perdere la sua intelligenza più ampia.
Dove si adatta l’OPCD e dove non si adatta
Sebbene l’OPCD sia un potente strumento per interiorizzare la conoscenza statica e le regole complesse, non sostituisce tutti i metodi del contesto esterno. “RAG è migliore quando le informazioni richieste sono altamente dinamiche o coinvolgono un enorme database esterno, aggiornato di frequente, che non può essere compresso in pesi di modello”, ha affermato Ye.
Per i team aziendali che valutano le pipeline, l’adozione dell’OPCD non richiede la revisione dei sistemi esistenti o l’investimento in hardware specializzato. “L’OPCD può essere integrato nei flussi di lavoro esistenti con pochi problemi”, ha affermato Ye. “Qualsiasi team che già esegue processi RLVR (Reinforced Learning from Verifying Rewards) standard può adottare l’OPCD senza grandi modifiche all’architettura.”
In pratica, il modello dello studente funge da modello politico che esegue l’implementazione, mentre il modello dell’insegnante congelato funge da riferimento che fornisce il logit. I requisiti hardware sono estremamente accessibili. Secondo Ye, i team aziendali possono riprodurre gli esperimenti dei ricercatori utilizzando circa otto GPU A100.
I requisiti relativi ai dati sono altrettanto leggeri. Per distillare la conoscenza esperienziale, gli sviluppatori hanno bisogno solo di circa 30 campioni seme per creare tracce di soluzione. Poiché la tecnica viene applicata ad ambienti precedentemente non ottimizzati, anche piccole quantità di dati forniscono la maggior parte del miglioramento delle prestazioni. I prompt ottimizzati esistenti e i set di dati delle attività standard sono sufficienti per analizzare il prompt del sistema.
I ricercatori hanno costruito le proprie applicazioni su questo. perditaUna base di codice RLVR open source, dimostra che la tecnica si adatta perfettamente ai tradizionali framework di apprendimento per rinforzo. Hanno in programma di rilasciare la loro app come open source dopo revisioni interne.
Il modello di auto-miglioramento: quale sarà il prossimo passo?
Guardando al futuro, l’OPCD apre la strada a modelli realmente auto-miglioranti che si adattano continuamente a specifici ambienti aziendali. Una volta distribuito, un modello può apprendere dalle interazioni del mondo reale e interiorizzare gradualmente queste funzionalità utilizzando l’OPCD, senza richiedere la supervisione manuale o la spiegazione dei dati da parte dei formatori del modello.
“Ciò rappresenta un cambiamento di paradigma fondamentale nello sviluppo del modello: i miglioramenti fondamentali nel modello passeranno dal tempo di formazione al tempo di test”, ha affermato Ye. “Utilizzare il modello e permettergli di acquisire esperienza sarà un fattore chiave per i suoi progressi.”















