Attualmente, la maggior parte dei modelli linguistici di grandi dimensioni suddividono il testo in migliaia di unità più piccole chiamate token. Trasforma il testo in rappresentazioni comprensibili ai modelli. Tuttavia, poiché le interazioni con gli utenti finali diventano più lunghe, l’archiviazione e l’elaborazione di questi token diventano costose. Quando un utente chatta con un’intelligenza artificiale per un lungo periodo di tempo, questa sfida può far sì che l’intelligenza artificiale dimentichi cose che l’utente le ha già detto e potrebbe distorcere le informazioni, un problema che alcuni chiamano “marciume del contesto”.
Nuovi metodi sviluppati da (e pubblicati in) DeepSeek ultimo documento) può aiutare ad affrontare questo problema. Invece di archiviare le parole come token, il suo sistema impacchetta le informazioni scritte come immagini, quasi come se stesse fotografando le pagine di un libro. I ricercatori hanno scoperto che ciò ha permesso al modello di conservare quasi la stessa quantità di informazioni utilizzando molti meno token.
In sostanza, il modello OCR è un banco di prova per questi nuovi metodi che consentono di inserire più informazioni nei modelli di intelligenza artificiale in modo più efficiente.
Oltre a utilizzare token visivi anziché semplici token testuali, il modello si basa su un tipo di compressione dei livelli non dissimile dal modo in cui svaniscono i ricordi umani: i contenuti più vecchi o meno importanti vengono archiviati in una forma leggermente più sfocata per risparmiare spazio. Nonostante ciò, gli autori dell’articolo sostengono che questi contenuti compressi possono comunque rimanere accessibili in background, pur mantenendo un elevato livello di efficienza del sistema.
I token di testo sono stati a lungo l’elemento costitutivo predefinito nei sistemi di intelligenza artificiale. L’uso dei token visivi invece non è convenzionale e, di conseguenza, il modello di DeepSeek attira sempre più l’attenzione dei ricercatori. Andrzej Karpathy, ex capo di Tesla AI e membro fondatore di OpenAI, ha elogiato il documento XDetto questo, le immagini potrebbero in definitiva essere migliori del testo come input per LLM. I token di testo possono essere “inutili e terribili in input”, ha scritto.
Manling Li, assistente professore di informatica presso la Northwestern University, afferma che il documento fornisce un nuovo quadro per affrontare le sfide esistenti nella memoria AI. “Sebbene l’idea di utilizzare token basati su immagini per l’archiviazione del contesto non sia del tutto nuova, questo è il primo studio che ho visto che si spinge così lontano e dimostra che può effettivamente funzionare”, afferma Lee.














