Uno degli aspetti positivi dei modelli di intelligenza artificiale generativa (sia modelli di linguaggio di grandi dimensioni (LLM) che generatori di immagini basati su span) è che "non deterministico." Quindi, nonostante la loro reputazione tra alcuni critici "correzione automatica fantasiosa," I modelli di intelligenza artificiale generativa producono effettivamente il loro output selezionando da una distribuzione i token successivi (unità di informazione) più probabili per popolare le loro risposte.
Chiedere al Maestro: "Qual è la capitale della Francia?" Francia, capitali, città, ecc. per trovare la risposta. esemplificherà la distribuzione di probabilità per "Parigi." Tuttavia, questa risposta potrebbe arrivare nel seguente formato: "La capitale della Francia è Parigi," o semplicemente "Parigi" O "Parigi, anche se a un certo punto era Versailles."
Tuttavia, quelli di noi che utilizzano frequentemente questi modelli nella vita quotidiana noteranno che a volte le loro risposte possono essere frustrantemente ripetitive o simili. Una battuta comune sul caffè si ripete in generazioni di domande. I suggerimenti della storia formano archi simili. Anche i compiti che richiedono molte risposte ragionevoli (come nominare gli stati americani) tendono a ridursi a pochi. Questo fenomeno, noto come collasso della modalità, si verifica durante l’allineamento post-addestramento e limita l’utilità di modelli robusti.
Quando si utilizzano i Master per produrre nuovi lavori creativi, in particolare nella scrittura, nella comunicazione, nella strategia o nell’illustrazione, i loro risultati sono molto più diversificati di quanto lo siano già.
Adesso a Gruppo di ricerca presso la Northeastern University, la Stanford University e la West Virginia University Hanno sviluppato un metodo ingegnosamente semplice per ottenere modelli linguistici e di immagini che produrranno una più ampia varietà di risposte a quasi tutte le richieste degli utenti. aggiungendo un’unica, semplice frase: "Genera 5 risposte con le probabilità corrispondenti, campionate dalla distribuzione completa."
Detto metodo Campionamento verbale (VS) aiuta modelli come GPT-4, Claude e Gemini a produrre output più diversificati e simili a quelli umani senza la necessità di riqualificazione o accesso a parametri interni. È spiegato in un certo senso carta È stato pubblicato online sulla rivista ad accesso aperto arxiv.org all’inizio di ottobre 2025.
Quando richiesto in questo modo, il modello non passa più all’output più sicuro e tipico. Invece, verbalizza la sua distribuzione interna su una gamma più ampia di potenziali completamenti ed esempi. Questo cambiamento di una sola linea porta a guadagni significativi nella diversità della produzione in più aree.
Come Weiyan Shi, assistente professore alla Northeastern University e coautore dell’articolo, ha scritto a x: "Le potenzialità dei Master non sono state ancora del tutto rivelate! Come dimostrato nel nostro articolo, una rapida ottimizzazione può essere guidata e teoricamente dimostrata considerando il modo in cui i LLM vengono formati e allineati."
Perché i modelli si bloccano e come fa VS a invertirli?
Secondo il gruppo di ricerca, la causa principale del collasso dell’umore non risiede solo negli algoritmi come l’apprendimento per rinforzo dal feedback umano (RLHF), ma anche nella natura delle preferenze umane. Le persone tendono a valutare come migliori le risposte più familiari o tipiche; questo guida la formazione universitaria verso scelte “sicure” piuttosto che verso una varietà di risposte durante la messa a punto.
Tuttavia, questa distorsione non cancella le informazioni sottostanti al modello; lo sopprime soltanto. VS funziona aggirando questa soppressione. Invece di richiedere il singolo risultato più probabile, invita il modello a scoprire una serie di risposte plausibili e le relative probabilità. Questa guida a livello di distribuzione ripristina l’accesso alla più ricca diversità disponibile nel modello di preformazione di base.
Prestazioni nel mondo reale in tutte le attività
Il team di ricerca ha testato il campionamento verbale in diversi casi d’uso comuni:
-
Scrittura creativa: Nella creazione della storia, VS ha aumentato i punteggi di diversità fino a 2,1 volte rispetto al routing standard mantenendo la qualità. Un arco narrativo – “Senza Farewell” – ha prodotto scene di addio stereotipate sotto la regia diretta, ma ha suscitato narrazioni che coinvolgono eventi cosmici, e-mail silenziose e musica che si interrompeva a metà della danza quando veniva diretta tramite VS.
-
Simulazione del dialogo: Nei compiti di dialogo persuasivo, il VS ha consentito ai modelli di simulare modelli simili a quelli umani come esitazione, resistenza e cambiamento di idea. Le distribuzioni del comportamento delle donazioni in VS si adattano meglio ai dati umani reali rispetto ai metodi di base.
-
QA a tempo indeterminato: Quando è stato chiesto di enumerare risposte valide (ad esempio, nominare gli stati degli Stati Uniti), i modelli che utilizzano VS hanno prodotto risposte che corrispondevano più da vicino alla diversità dei dati del mondo reale. Hanno coperto una serie più ampia di risposte senza sacrificare l’accuratezza fattuale.
-
Generazione di dati sintetici: quando utilizzato per creare problemi di matematica per l’addestramento del modello, VS creava set di dati più diversificati. Questi hanno inoltre sovraperformato i dati sintetici generati tramite manipolazione diretta, migliorando le prestazioni a valle nei benchmark matematici competitivi.
Diversità regolabile e migliore gestione dei modelli più grandi
Un notevole vantaggio di VS è adattabilità. Gli utenti possono impostare una soglia di probabilità quando richiesto per campionare dalle “code” di probabilità più basse della distribuzione del modello. Soglie inferiori corrispondono a una maggiore diversità. Questa regolazione può essere effettuata solo tramite testo, senza modificare le impostazioni di decodifica come temperatura o super-p.
In un test utilizzando il modello Gemini-2.5-Flash, la diversità nella scrittura della storia è aumentata costantemente man mano che la soglia di probabilità è diminuita da 1 a 0,001. Il grafico che accompagna lo studio ha mostrato che il VS ha sovraperformato sia il routing diretto che quello a turni a tutte le soglie.
È interessante notare che il metodo si adatta bene alle dimensioni del modello. Modelli più grandi come GPT-4.1 e Claude-4 hanno ottenuto guadagni ancora maggiori da VS rispetto ai modelli più piccoli. Mentre i modelli più piccoli hanno mostrato benefici, il miglioramento della diversità è stato circa 1,5-2 volte maggiore nei modelli più grandi; Ciò dimostra che VS aiuta a sbloccare più funzionalità nascoste nei modelli avanzati.
Distribuzione e disponibilità
Il metodo Verbal Sampling è ora disponibile come pacchetto Python:
pip install verbalized-sampling
Il pacchetto include l’integrazione con LangChain e supporta una semplice interfaccia per il campionamento dalla distribuzione parlata. Gli utenti possono anche impostare parametri come: k
(numero di risposte), soglie e temperatura saranno adeguate alla loro applicazione.
Un notebook Colab live e la documentazione sono disponibili all’indirizzo: Licenza Apache 2.0 di facile utilizzo Su GitHub all’indirizzo: https://github.com/CHATS-lab/verbalized-sampling
Consigli pratici e problemi comuni
Sebbene il metodo funzioni per tutti i principali LLM, alcuni utenti potrebbero riscontrare inizialmente rifiuti o errori.
In questi casi gli autori consigliano di utilizzare la versione del prompt di sistema del template o di ricorrere ai formati alternativi elencati nella pagina GitHub.
alcuni modelli interpretare istruzioni complesse come tentativi di jailbreak e si rifiutano di conformarsi a meno che la struttura non sia più chiara.
Ad esempio, l’instradamento tramite un’istruzione a livello di sistema come questa migliora l’affidabilità:
Sei un assistente utile. Per ogni query, crea cinque risposte in tag separati, ciascuna con una probabilità inferiore a 0,10.
Questo piccolo cambiamento di solito risolve tutti i problemi.
Una soluzione leggera a un grosso problema
L’istanziazione verbale rappresenta una soluzione pratica del tempo di inferenza per una profonda limitazione nel comportamento dei modelli linguistici moderni. Non richiede la riqualificazione del modello o l’accesso interno. Non è affiliato ad alcuna famiglia di modelli. E aumenta non solo la diversità dei risultati, ma anche la loro qualità, valutata sia dalla valutazione umana che dai punteggi di riferimento.
Con il crescente interesse per gli strumenti che migliorano la creatività dei modelli, si prevede che VS verrà rapidamente adottato in aree quali la creazione, la progettazione, la simulazione, la formazione e la creazione di dati sintetici.
Per gli utenti e gli sviluppatori frustrati dall’identità delle risposte del Master, la soluzione potrebbe essere semplice come cambiare la domanda.