Nel caotico mondo dell’ottimizzazione del Large Language Model (LLM), gli ingegneri hanno trascorso gli ultimi anni a sviluppare rituali sempre più esoterici per ottenere risposte migliori.
abbiamo visto "Catena di pensiero" (chiedere al modello di pensare passo dopo passo e mostrarli frequentemente "tracce di ragionamento" all’utente), "Ricatto emotivo" (dire alla modella che la sua carriera dipende dalla risposta oppure essere accusato di molestie sessuali) e complessi fotogrammi di regia multi-inquadratura.
Ma un nuovo articolo pubblicato da Google Research suggerisce che potremmo pensare troppo a questo problema. I ricercatori hanno scoperto che ripetere la query di input (letteralmente copiare e incollare in modo che la richiesta venga visualizzata due volte) migliorava costantemente le prestazioni sui principali modelli come Gemini, GPT-4o, Claude e DeepSeek.
articolo intitolato "Ripetizione nei programmi di master di cure tempestive irrazionali," Lo studio, pubblicato il mese scorso, poco prima delle vacanze, presenta una scoperta quasi sospettosamente semplice: nei compiti che non richiedono passaggi di ragionamento complessi, affermare il suggerimento due volte produce risultati significativamente migliori che affermarlo una volta.
Ancora meglio, per il modo in cui funziona l’architettura del trasformatore "strano trucco" Viene fornito con una penalità quasi pari a zero in termini di velocità di produzione.
Punto cieco causale
Per capire perché ripetere una domanda rende un supercomputer più intelligente, è necessario esaminare i limiti architettonici del modello Transformer standard.
La maggior parte dei LLM moderni sono formati come: "causale" modelli linguistici. Ciò significa che elaborano il testo rigorosamente da sinistra a destra. Quando elabori il quinto token nella frase modello, "unirsi" (nota) ha i token da 1 a 4, ma zero informazioni sul token 6 perché non è ancora avvenuto.
Ciò crea una limitazione fondamentale sul modo in cui i modelli comprendono le query degli utenti. Come notano gli autori, l’ordine delle informazioni è estremamente importante.
Una query formattata in questo modo <CONTEXT> <QUESTION> spesso dà risultati diversi <QUESTION> <CONTEXT> perché nel secondo caso il modello legge la domanda prima di conoscere il contesto in cui deve applicare la domanda.
La ripetizione del prompt elimina questa limitazione trasformando un input. <QUERY> in <QUERY><QUERY>.
Quando il modello inizia a funzionare secondo iterazione della query, già "Da leggere" prima iterazione. Ciò garantisce che i token della seconda copia si uniscano a ciascun token della prima copia.
In effetti, la seconda ripetizione utilizza una forma di attenzione bidirezionale; "guarda indietro" durante tutta la query per risolvere ambiguità o recuperare dettagli specifici che potrebbero essere stati persi in un unico passaggio.
Confronti: 47 vittorie, 0 sconfitte
I ricercatori Yaniv Leviathan, Matan Kalman e Yossi Matias hanno testato questa ipotesi su una suite di sette benchmark popolari, tra cui ARC, OpenBookOA, GSM8K e MMLU-Pro. Hanno valutato sette diversi modelli, che vanno da modelli leggeri come Gemini 2.0 Flash Lite e GPT-4o-mini a modelli pesanti come Claude 3.7 Sonnet e DeepSeek V3. I risultati sono stati statisticamente sorprendenti. Quando chiedi informazioni sui modelli Negativo Per usare un ragionamento ovvio (cioè dare semplicemente una risposta diretta), la ripetizione tempestiva ha vinto 47 test testa a testa su 70 con zero perdite rispetto al valore di base. I guadagni sono stati particolarmente sorprendenti nei compiti che richiedevano un richiamo preciso da una stecca. Il team ha progettato uno speciale "NomeIndice" Benchmark in cui al modello viene fornito un elenco di 50 nomi e viene chiesto di identificare il 25esimo nome.
-
Prestazioni di base: Gemini 2.0 Flash-Lite ottiene un punteggio triste 21,33% precisione.
-
Per ripetizione: La precisione è aumentata rapidamente 97,33%.
Questo enorme salto dimostra che: "punto cieco causale" Perfetto. In un singolo passaggio, il modello potrebbe perdere traccia del numero nel momento in cui raggiunge il 25° nome. Al passaggio ripetuto, il modello mantiene effettivamente l’intero elenco al suo interno. "memoria di lavoro" prima di provare a risolvere la missione di recupero.
"Pranzo libero" Ritardo
Spesso l’aggiunta di testo a un prompt aumenta i costi e la latenza. Se raddoppi l’input, raddoppi il tempo di attesa, giusto? Sorprendentemente no. L’articolo mostra che la ripetizione rapida è essenzialmente importante. "gratuito" Riguarda la latenza percepita dall’utente. Il processo LLM è diviso in due fasi:
-
Precompilazione: Il modello elabora la richiesta di input. Questo è altamente parallelizzabile; La GPU può elaborare simultaneamente l’intera matrice dei prompt.
-
Produzione (decodifica): Il modello genera la risposta una moneta alla volta. È veloce e lento.
La ripetizione rapida non fa altro che aumentare il lavoro. precompilare scena. L’hardware moderno gestisce la precompilazione in modo così efficiente che l’utente nota a malapena la differenza. I ricercatori scoprono che ripetere il suggerimento funziona Negativo non ha aumentato la lunghezza della risposta generata o "momento della prima moneta" ritardo per la maggior parte dei modelli. L’unica eccezione sono stati i modelli di Anthropic con richieste estremamente lunghe (Claude Haiku e Sonnet), dove hanno riscontrato un collo di bottiglia alla fine della fase di pre-riempimento. Tuttavia, nella stragrande maggioranza dei casi d’uso, questa tecnica aumenta la precisione senza rallentare l’esperienza di chat.
Ragionamento e ripetizione
Abbiamo un avvertimento: questa tecnica è principalmente "illogico" attività: scenari in cui si desidera una risposta diretta anziché una derivazione passo passo.
Quando i ricercatori hanno testato la ripetizione rapida con "Catena di pensiero" (Richiedo questo al modello: "pensa passo dopo passo"), i guadagni sono in gran parte scomparsi e hanno mostrato risultati da neutrali a leggermente positivi (5 vittorie, 1 sconfitta, 22 pareggi).
Gli autori suggeriscono che i modelli di ragionamento eseguono intrinsecamente una qualche versione di ripetizione. Quando un modello "pensa," di solito riafferma la premessa della domanda nell’output generato prima di risolvere la domanda. Pertanto non è necessario ripetere esplicitamente il suggerimento nell’introduzione.
Tuttavia, per le applicazioni in cui è necessaria una risposta rapida e diretta senza i dettagli (e i costi) di un lungo ragionamento di follow-up, l’iterazione rapida offre una potente alternativa.
Esecuzione strategica per le imprese
Per la leadership aziendale, questa ricerca rappresenta una delle cose più rare nello sviluppo dell’intelligenza artificiale: "gratuito" ottimizzazione. Ma la capitalizzazione richiede sfumature; non si tratta di un’impostazione che può essere cambiata ciecamente all’interno dell’intera organizzazione, ma piuttosto di un adattamento tattico che oscilla tra ingegneria, orchestrazione e sicurezza.
Per i leader tecnici che bilanciano il triangolo infinito di velocità, qualità e costi, l’iterazione rapida offre un modo per superare la propria classe di peso. I dati mostrano che i modelli più piccoli e più veloci come Gemini 2.0 Flash Lite possono raggiungere una precisione di ricezione quasi perfetta (passando dal 21,33% al 97,33%) elaborando l’input due volte.
Ciò modifica il calcolo della selezione del modello: prima di passare a un modello più grande e più costoso per risolvere il collo di bottiglia della precisione, gli ingegneri devono prima verificare se la semplice iterazione consente i modelli esistenti. "Leggero" Modelli che colmeranno il divario. Si tratta di una potenziale strategia per preservare la velocità e i vantaggi in termini di costi dell’infrastruttura leggera senza sacrificare le prestazioni nelle attività di estrazione e recupero.
Questa logica sposta naturalmente il carico sul livello di orchestrazione. Per coloro che gestiscono il middleware e i gateway API che uniscono le applicazioni IA, è probabile che la ripetizione immediata debba diventare una componente standard e invisibile della logica della pipeline piuttosto che un comportamento dell’utente.
Tuttavia, la tecnica richiede una pratica condizionata, poiché è neutra per compiti pesanti di ragionamento ma altamente efficace per le risposte dirette. Un hardware di orchestrazione intelligente identificherà automaticamente le richieste dirette a endpoint controintuitivi, come l’estrazione di risorse, la classificazione o semplici domande e risposte, e piegherà due volte la richiesta prima di passarla al modello. Ciò ottimizza le prestazioni a livello di infrastruttura, fornendo risultati migliori senza richiedere alcuna azione da parte degli utenti finali o aumentare il budget di produzione.
Infine, questa maggiore attenzione introduce una nuova variabile per i team di sicurezza.
Se la ripetizione di un prompt chiarisce le intenzioni dell’utente nei confronti del modello, ciò significa che possono essere chiarite anche le intenzioni dannose. I direttori della sicurezza dovranno aggiornare i protocolli della squadra rossa per i test "iniezione ripetuta" attacchi: verifica se un comando di jailbreak è stato ripetuto (ad es. "Ignorare le istruzioni precedenti") crea il modello "unirsi" realizza la violazione in modo più efficace. Viceversa, questo meccanismo introduce un nuovo strumento di difesa: la replica delle Richieste di Sistema.
Specificare due volte i guardrail di sicurezza all’inizio della finestra di contesto può forzare il modello a conformarsi più rigorosamente ai vincoli di sicurezza e fungere da rinforzo a basso costo per robuste operazioni di sicurezza.
Perché è importante?
Questa ricerca evidenzia un’intuizione cruciale per gli sviluppatori laureati: i nostri modelli attuali sono ancora profondamente vincolati dalla loro natura unidirezionale. Mentre aspettiamo nuove architetture in grado di risolvere la cecità causale, soluzioni alternative grezze ma efficaci come l’iterazione rapida offrono un valore immediato. Gli autori suggeriscono che questo potrebbe diventare un comportamento predefinito per i sistemi futuri.
Presto potremmo vedere i motori di inferenza raddoppiare silenziosamente le nostre richieste in background prima di inviarle al modello o "ragionamento" i modelli sono stati addestrati per interiorizzare questa strategia di ripetizione per diventare più efficienti. Per ora, se hai difficoltà a trovare un modello che segua istruzioni complesse o recuperi dettagli specifici da un lungo documento, potrebbe non esserci indizio migliore per la soluzione. Potrebbe essere necessario dirlo di nuovo.















