
Quando lo trovano in genere le aziende? Mettono a punto i modelliUn approccio efficace per rendere un modello linguistico di grandi dimensioni (LLM) adatto allo scopo e basato sui dati è quello di far perdere al modello alcune delle sue capacità. Dopo la messa a punto, alcuni modelli “dimenticano” come eseguire determinati compiti o altri compiti appresi in precedenza.
Una ricerca dell’Università dell’Illinois Urbana-Champaign propone un nuovo metodo per riqualificare i modelli che previene “l’oblio catastrofico”, in cui il modello perde parte della sua conoscenza precedente. L’articolo si concentra su due LLM specifici che generano risposte da immagini: LLaVA e Qwen 2.5-VL.
Questo approccio incoraggia le aziende a riqualificare solo parti ristrette di un LLM per evitare di riqualificare l’intero modello, portando a un aumento significativo dei costi di elaborazione. Il team sostiene che l’oblio catastrofico non è una vera perdita di memoria, ma piuttosto un effetto collaterale dello spostamento dei pregiudizi.
“La formazione di un nuovo LMM può costare milioni di dollari, settimane di tempo e rilasciare centinaia di tonnellate di CO2, quindi trovare modi per aggiornare i modelli esistenti in modo più efficiente ed efficace è una preoccupazione urgente”, ha scritto il team. carta. “Guidati da questo risultato, studiamo ricette di ottimizzazione che preservino l’apprendimento limitando la variazione dell’output.”
I ricercatori si sono concentrati sul percettrone multistrato (MLP), la componente decisionale interna del modello.
disastro, non dimenticare
I ricercatori volevano innanzitutto confermare l’esistenza e la causa dell’oblio catastrofico nei modelli.
Per fare ciò, hanno creato una serie di attività target che i modelli dovevano completare. I modelli sono stati poi messi a punto e valutati per determinare se portassero a dimenticanze significative. Ma man mano che il processo andava avanti, i ricercatori scoprirono che alcune delle capacità dei modelli venivano ripristinate.
“Abbiamo anche notato un risultato sorprendente: dopo l’addestramento sul compito di conteggio, le prestazioni del modello diminuirebbero significativamente sui benchmark a lungo termine, mentre miglioravano principalmente su PathVQA, un altro compito specifico non ben rappresentato nei benchmark”, hanno osservato. “Nel frattempo, durante l’esecuzione di esperimenti di riduzione dell’oblio, abbiamo provato a mettere a punto solo la proiezione dell’autoattenzione (progetto SA) o gli strati MLP separatamente, motivati dalla scoperta che mettere a punto solo l’LLM era generalmente migliore che mettere a punto il modello completo. Ciò ha portato a un altro risultato molto sorprendente: la messa a punto solo degli strati di proiezione dell’autoattenzione ha portato a un ottimo apprendimento dei compiti target, senza alcuna diminuzione delle prestazioni sui compiti estesi, anche dopo aver addestrato tutti e cinque i target.” lo aprì. Compiti in ordine.”
I ricercatori hanno affermato di ritenere che “ciò che sembra essere una dimenticanza o un’interferenza dopo la messa a punto del compito target ristretto è in realtà un errore nella distribuzione dell’output dovuto a uno spostamento nell’allocazione dei compiti”.
Riqualificazione ristretta
Questa scoperta si è rivelata la chiave dell’esperimento. I ricercatori hanno notato che la regolazione dell’MLP “ha aumentato la probabilità che vengano emessi token numerici, con una diminuzione altamente associata della precisione dell’attività”. Ciò ha dimostrato che dimenticare alcune informazioni di un modello era solo temporaneo e non un problema a lungo termine.
“Per evitare di influenzare la distribuzione dell’output, abbiamo ottimizzato le proiezioni up/gate dell’MLP congelando la proiezione down e abbiamo scoperto che otteneva un apprendimento simile alla sintonizzazione completa dell’MLP con poca dimenticanza”, hanno detto i ricercatori.
Ciò fornisce un metodo più semplice e ripetibile per la messa a punto di un modello.
Le aziende possono ridurre i costi informatici concentrandosi su una sezione ristretta del modello piuttosto che sulla riqualificazione su vasta scala. Fornisce inoltre un migliore controllo della deriva dell’uscita.
Ma la ricerca si concentra solo su due modelli, nello specifico quelli legati alla visione e al linguaggio. I ricercatori hanno notato che non potevano tentare l’esperimento con altri modelli a causa delle risorse limitate.
Tuttavia, i loro risultati possono essere estesi ad altri LLM, soprattutto per metodi diversi.














