Le linee guida standard per la creazione di modelli linguistici di grandi dimensioni (LLM) ottimizzano solo i costi di formazione e ignorano i costi di inferenza. Ciò rappresenta una sfida per le applicazioni del mondo reale che utilizzano tecniche di scalabilità temporale dell’inferenza per aumentare l’accuratezza delle risposte del modello, come il disegno di più esempi di ragionamento da un modello durante la distribuzione.
Per colmare questa lacuna, i ricercatori dell’Università del Wisconsin-Madison e dell’Università di Stanford Educazione alla prova (T2) leggi di scala, un framework che ottimizza congiuntamente la dimensione dei parametri di un modello, il volume dei dati di training e il numero di campioni di inferenza del tempo di test.
In pratica, il loro approccio si rivela ottimale dal punto di vista computazionale per addestrare modelli molto più piccoli su una quantità di dati molto maggiore rispetto a quanto previsto dalle regole tradizionali e quindi utilizzare il carico computazionale risparmiato per generare più campioni ripetuti nell’inferenza.
Per gli sviluppatori di applicazioni IA aziendali che addestrano i propri modelli, questa ricerca fornisce un piano collaudato per massimizzare il ritorno sull’investimento. Ciò dimostra che la logica dell’intelligenza artificiale non richiede necessariamente grandi spese per i modelli di frontiera. Invece, i modelli più piccoli possono offrire prestazioni più elevate su attività complesse mantenendo i costi di inferenza per query gestibili entro i budget di implementazione del mondo reale.
Leggi di scala contrastanti
Le leggi di scala sono una parte importante dello sviluppo di modelli linguistici di grandi dimensioni. Le leggi di dimensionamento pre-addestramento determinano il modo migliore per allocare il calcolo durante la creazione del modello. testare le leggi di scalabilità temporale Guida su come allocare il calcolo durante la distribuzione, ad esempio consentendo al modello di “pensare più a lungo” o creando più istanze di ragionamento per risolvere problemi complessi.
Il problema è che queste leggi di scala, sebbene fondamentalmente intrecciate, sono state sviluppate in modo completamente indipendente l’una dall’altra.
La dimensione dei parametri di un modello e il tempo di addestramento determinano direttamente sia la qualità che il costo per query dei campioni di inferenza. Attualmente, il gold standard del settore per la pre-formazione regola del cincillàCiò suggerisce una velocità di calcolo ottimale di circa 20 token di addestramento per ciascun parametro del modello.
Ma i creatori delle moderne famiglie di modelli di intelligenza artificiale come Llama, Gemma e Qwen violano regolarmente questa regola sottoponendo deliberatamente i loro minuscoli modelli a grandi quantità di dati.
Come ha detto a VentureBeat il coautore dell’articolo Nicholas Roberts, l’approccio tradizionale vacilla quando si creano flussi di lavoro complessi: "A mio avviso, lo stack di inferenza viene danneggiato quando ogni chiamata di inferenza è costosa. Questo è il caso quando i modelli sono grandi ed è necessario eseguire numerosi campionamenti ripetuti." Invece di fare affidamento su modelli massicci, gli sviluppatori possono utilizzare modelli compatti sovradimensionati per eseguire questo campionamento iterativo a una frazione del costo.
Ma poiché le leggi sulla scalabilità dei tempi di formazione e test vengono studiate separatamente, non esiste un quadro definitivo per calcolare il livello di sovrallenamento di un modello in base al numero di esempi di ragionamento che deve generare durante l’implementazione.
Di conseguenza, in precedenza non esisteva una formula che ottimizzasse congiuntamente le dimensioni del modello, il volume dei dati di training e i budget di inferenza del tempo di test.
Il motivo per cui questo quadro è difficile da formulare è che il dimensionamento pre-formazione e il tempo di test parlano due linguaggi matematici diversi. Durante il pre-addestramento, le prestazioni di un modello vengono misurate utilizzando la “perdita”, una metrica fluida e continua che tiene traccia degli errori di previsione man mano che il modello apprende.
Al momento del test, gli sviluppatori utilizzano parametri downstream del mondo reale per valutare le capacità di ragionamento di un modello, come pass@k, che misura la probabilità che un modello produca almeno una risposta corretta in k prove indipendenti e ripetute.
Adattare le leggi dalla formazione ai test
Per risolvere la disconnessione tra formazione e implementazione, i ricercatori hanno implementato Training to Test (T)2) leggi di scala. Ad alto livello, questo quadro prevede le prestazioni di ragionamento di un modello trattando tre variabili come un’unica equazione: la dimensione del modello (N), il volume di token di addestramento che apprende (D) e il numero di esempi di ragionamento che produce durante l’inferenza (k).
T2 Combina i budget di pre-addestramento e inferenza in un’unica formula di ottimizzazione che tiene conto sia del costo di base per l’addestramento del modello (6ND) sia del costo composto per eseguire query ripetute sull’inferenza (2Nk). I ricercatori hanno provato diversi approcci di modellazione: modellare la perdita pre-allenamento o le prestazioni al momento del test (pass@k) come funzioni di N, D e k.
Il primo approccio prende la familiare equazione matematica utilizzata per il ridimensionamento di Chinchilla (che calcola l’errore o la perdita di previsione di un modello) e la modifica direttamente aggiungendo una nuova variabile che tiene conto del numero di campioni ripetuti del tempo di test (k). Ciò consente agli sviluppatori di vedere come il calcolo dell’inferenza incrementale riduce il tasso di errore complessivo del modello.
Il secondo approccio modella direttamente la precisione pass@k a valle. Indica agli sviluppatori la probabilità che la loro applicazione risolva un problema dato un determinato budget di elaborazione.
Quindi le aziende dovrebbero utilizzare questo framework in ogni applicazione? Questo approccio è altamente specializzato, spiega Roberts. "Penso che non vedrai molti vantaggi dalle applicazioni ricche di informazioni come i modelli di chat." ha detto. Al suo posto, "T2 È progettato specificamente per applicazioni ad alto utilizzo di ragionamento come la codifica, in cui in genere si utilizza il campionamento ripetuto come metodo di ridimensionamento del tempo di test."
Cosa significa per gli sviluppatori?
Per verificare T2 Utilizzando le leggi di scala, i ricercatori hanno creato un banco di prova completo di oltre 100 modelli linguistici che vanno da 5 a 901 milioni di parametri. Per verificare se le loro previsioni matematiche corrispondevano alla realtà, hanno addestrato da zero 21 nuovi punti di controllo sovrallenati. Hanno poi confrontato i modelli su otto diversi compiti, inclusi set di dati del mondo reale come SciQ e OpenBookQA, nonché compiti sintetici progettati per testare l’aritmetica, il ragionamento spaziale e il richiamo delle informazioni.
Entrambi i modelli matematici hanno dimostrato che il limite ottimale dal punto di vista computazionale si discosta significativamente dal ridimensionamento standard di Chinchilla. La scelta ottimale per massimizzare le prestazioni con un budget fisso è un modello significativamente più piccolo e addestrato su molti più dati di quelli richiesti dalla tradizionale regola di 20 monete per parametro.
Nei loro esperimenti, piccoli modelli altamente sovrallenati hanno costantemente sovraperformato i modelli più grandi e ottimali di Chinchilla in tutti gli otto compiti di valutazione quando sono stati presi in considerazione i costi di campionamento del tempo di prova.
La barriera tecnica per gli sviluppatori che desiderano implementare questi risultati è sorprendentemente bassa.
"Non è necessaria alcuna fantasia per ottenere il ridimensionamento dei tempi di test con i nostri modelli esistenti." ha detto Roberts. "Durante la distribuzione, gli sviluppatori possono sicuramente integrare un’infrastruttura che renda il processo di campionamento più efficiente (ad esempio, la memorizzazione nella cache KV se si utilizza un trasformatore)."
La memorizzazione nella cache KV aiuta memorizzando il contesto pre-renderizzato; in modo che il modello non debba rileggere da zero il prompt iniziale per ogni nuova istanza di ragionamento.
Ma il sovrallenamento estremo comporta dei compromessi pratici. Sebbene i modelli sovrallenati siano notoriamente testardi e più difficili da mettere a punto, Roberts osserva che quando applicano un perfezionamento supervisionato: "Sebbene questo effetto fosse presente, non era abbastanza forte da far regredire il modello ottimale fino a Chinchilla." La strategia informatica ottimale continua a tendere strettamente verso modelli compatti.
Tuttavia, i team che spingono questo limite al limite assoluto devono stare attenti a raggiungere i limiti dei dati fisici. "D’altra parte, se porti le nostre raccomandazioni sul sovrallenamento alle estreme conseguenze, potresti effettivamente esaurire i dati di allenamento." Riferendosi ai prossimi sviluppi, Roberts ha detto: "muro di dati" dove i dati Internet di alta qualità si stanno esaurendo.
Questi esperimenti confermano che quando un’applicazione si basa sulla generazione di più istanze di ragionamento in fase di test, il sovrallenamento aggressivo di un modello compatto è il modo pratico e matematicamente più efficiente per spendere un budget di elaborazione end-to-end.
Per aiutare gli sviluppatori a iniziare, il team di ricerca prevede di rendere open source i propri checkpoint e il codice nel prossimo futuro; consentendo così alle organizzazioni di aggiungere i propri dati e testare immediatamente il comportamento di scalabilità. In definitiva, questo quadro funge da forza stabilizzatrice nel settore dell’intelligenza artificiale.
Ciò è particolarmente importante in quanto il prezzo elevato dei modelli edge può diventare una barriera quando si scalano applicazioni mediate basate su modelli di ragionamento.
"T2 Cambia radicalmente chi crea modelli di ragionamento forti," conclude Roberts. "Potrebbe non essere necessario disporre di ingenti budget informatici per ottenere un ragionamento all’avanguardia. Sono invece necessari dati validi e un’allocazione intelligente del budget per la formazione e l’inferenza."