Quando un modello viene addestrato, a ogni parola nel suo vocabolario viene assegnato un valore numerico che ne cattura il significato in relazione a tutte le altre parole, in base a come la parola appare in innumerevoli esempi nei dati di addestramento del modello.
Ogni parola è sostituita da un tipo di codice?
SÌ. Ma c’è qualcosa di più. Il valore numerico – l’incorporamento – che rappresenta ogni parola è in realtà a Lista Ogni numero nell’elenco dei numeri rappresenta un aspetto diverso del significato che il modello ha estratto dai dati di addestramento. La lunghezza di questo elenco di numeri è un’altra cosa che il progettista LLM può specificare prima che il LLM venga addestrato. Una dimensione comune è 4.096.
Ogni parola all’interno di LLM è rappresentata da un elenco di 4.096 numeri?
Sì, è un incorporamento. E ciascuno di questi numeri viene modificato durante l’allenamento. Si ritiene che gli LLM con incorporamenti lunghi 4.096 numeri abbiano 4.096 dimensioni.
Perché 4.096?
Questo può sembrare un numero strano. Ma gli LLM (come qualsiasi cosa che gira su un chip di computer) funzionano meglio con potenze di due: 2, 4, 8, 16, 32, 64, ecc. Gli ingegneri LLM hanno scoperto che 4.096 è una potenza di due che raggiunge un punto debole tra capacità ed efficienza. I modelli con dimensioni inferiori sono meno capaci; I modelli di dimensione superiore sono troppo costosi o lenti da addestrare ed eseguire.
L’uso di numeri più grandi consente agli LLM di ottenere ottime informazioni su come una parola viene utilizzata in molti contesti diversi, quali significati sottili può avere, come si collega ad altre parole e così via.
A febbraio, OpenAI ha rilasciato GPT-4.5, il più grande LLM della società fino ad oggi (alcune stime stimano che il numero dei suoi parametri sia superiore a 10 trilioni). Nick Ryder, uno scienziato ricercatore di OpenAI che ha lavorato sul modello, mi disse all’epoca che modelli più grandi potevano funzionare con informazioni aggiuntive, come segnali emotivi, come quando le parole di un oratore indicano ostilità: “Tutti questi modelli sottili che emergono nelle conversazioni umane – questi sono gli elementi che questi modelli sempre più grandi riprenderanno.”
Il risultato è che tutte le parole all’interno del LLM vengono codificate in uno spazio ad alta dimensione. Immagina migliaia di parole fluttuare nell’aria intorno a te. Le parole vicine tra loro hanno significati simili. Ad esempio, “tavolo” e “sedia” sarebbero più vicini tra loro di “astronauta”, che è più vicino a “luna” e “muschio”. Da molto lontano puoi vedere la “previsione”. È qualcosa del genere, ma le parole all’interno del LLM sono correlate tra loro in 4.096 dimensioni invece di essere correlate tra loro in tre dimensioni.
OH.
Questa è una cosa sconcertante. In effetti, un LLM comprime l’intera Internet in un’unica gigantesca struttura matematica che codifica una quantità insondabile di informazioni interconnesse. Questo è il motivo per cui i LLM possono fare cose straordinarie e perché sono impossibili da comprendere appieno.













