“Man mano che questi sistemi di intelligenza artificiale diventeranno più potenti, diventeranno sempre più integrati in domini molto importanti”, ha affermato Leo Gao, ricercatore presso OpenAI. Revisione della tecnologia del MIT In anteprima speciale il nuovo lavoro. “È molto importante assicurarsi che siano al sicuro.”

Questa è ancora la ricerca iniziale. Il nuovo modello, chiamato Weight-Sparse Transformer, è molto più piccolo e molto meno potente dei modelli di fascia alta del mercato di massa come GPT-5 dell’azienda, Cloud di Anthropic e Gemini di Google DeepMind. Nella migliore delle ipotesi, dice Gao, è capace quanto GPT-1, un modello che OpenAI ha sviluppato nel 2018 (anche se lui e i suoi colleghi non hanno fatto un confronto diretto).

Ma non è destinato a competere con i migliori della categoria (almeno, non ancora). Invece, osservando come funziona questo modello sperimentale, OpenAI spera di conoscere i meccanismi alla base di quelle versioni più grandi e migliori della tecnologia.

Si tratta di una ricerca interessante, afferma la matematica del Boston College Alisanda Grigsby, che studia come funzionano i LLM e che non è stata coinvolta nel progetto: “Sono sicura che i metodi che sono stati introdotti avranno un impatto significativo”.

Lee Sharkey, ricercatore presso la startup AI Goodfire, è d’accordo. “Il lavoro è ben mirato e sembra essere ben eseguito”, afferma.

Perché i modelli sono così difficili da comprendere?

Il lavoro di OpenAI fa parte di un nuovo campo di ricerca noto come spiegabilità meccanicistica, che sta cercando di mappare i meccanismi interni utilizzati dai modelli durante l’esecuzione di vari compiti.

Questo è più difficile di quanto sembri. Gli LLM sono costruiti da reti neurali costituite da nodi, chiamati neuroni, disposti in strati. Nella maggior parte delle reti, ogni neurone è connesso a ogni altro neurone nei suoi strati adiacenti. Tali reti sono conosciute come reti dense.

Le reti dense sono relativamente efficienti da addestrare e gestire, ma diffondono ciò che apprendono su enormi insiemi di connessioni. Il risultato è che concetti o compiti semplici possono essere suddivisi tra neuroni in diverse parti di un modello. Inoltre, neuroni distinti possono anche rappresentare molte caratteristiche diverse, un fenomeno noto come sovrapposizione (un termine preso in prestito dalla fisica quantistica). Il risultato è che non è possibile collegare parti specifiche di un modello a concetti specifici.

Collegamento alla fonte