Guardando al futuro, se le tecniche di rimozione delle informazioni si sviluppassero ulteriormente in futuro, le aziende di intelligenza artificiale potrebbero un giorno essere in grado di rimuovere materiale protetto da copyright, informazioni private o testo memorizzato dannoso da una rete neurale senza compromettere la capacità del modello di eseguire compiti di trasformazione. Tuttavia, poiché le reti neurali memorizzano le informazioni in un modo distribuito che non è ancora del tutto compreso, per ora i ricercatori affermano che il loro metodo “non può garantire la completa eliminazione delle informazioni sensibili”. Questi sono i primi passi verso una nuova ricerca per l’IA.
Visitare il paesaggio neurale
Per capire come i ricercatori di Goodfire hanno separato la memorizzazione dalla logica in queste reti neurali, è utile conoscere un concetto di intelligenza artificiale chiamato “paesaggi di perdita”. Un “panorama delle perdite” è un modo per visualizzare quanto siano sbagliate o giuste le previsioni di un modello di intelligenza artificiale quando si modificano le sue impostazioni interne (chiamate “pesi”).
Immagina di mettere a punto una macchina complessa con milioni di quadranti. Il “danno” misura il numero di errori della macchina. Un danno elevato significa molti errori, un danno basso significa pochi errori. Se riesci a mappare il tasso di errore per ogni possibile combinazione di impostazioni del quadrante, vedrai il “panorama”.
Durante l’addestramento, i modelli di intelligenza artificiale essenzialmente “discendono” in questo paesaggio (Discesa gradiente), aggiustano i loro pesi per trovare gli avvallamenti dove commettono meno errori. Questo processo fornisce l’output del modello AI, come le risposte alle domande.
I ricercatori hanno analizzato la “curvatura” dei paesaggi di perdita di alcuni modelli linguistici di intelligenza artificiale, misurando la sensibilità delle prestazioni del modello a piccoli cambiamenti nei diversi pesi della rete neurale. Picchi e valli netti rappresentano un’elevata curvatura (dove piccoli cambiamenti hanno grandi effetti), mentre le pianure rappresentano una bassa curvatura (dove i cambiamenti hanno effetti minimi).
utilizzando una tecnica chiamata K-FAC (Curvatura approssimativa basata su fattore Kronecker), hanno scoperto che i singoli elementi memorizzati producevano picchi netti in questo paesaggio, ma poiché ciascun elemento memorizzato aveva picchi in una direzione diversa, quando calcolati insieme la media producevano un profilo piatto. Nel frattempo, capacità di ragionamento che dipendono dal mantenimento di curve mediane coerenti in molti paesaggi di input diversi, come colline ondulate che mantengono più o meno la stessa forma indipendentemente dalla direzione in cui ci si avvicina.















