Ultimamente si è parlato molto dell’idea che i modelli di ragionamento di grandi dimensioni (LRM) non possano pensare. Ciò è dovuto principalmente a un documento di ricerca pubblicato da Apple. "Pensare Illusione" Apple sostiene che gli LRM non dovrebbero essere in grado di pensare; invece eseguono semplicemente la corrispondenza dei modelli. La prova che forniscono è che gli LRM con logica della catena di pensiero (CoT) non possono sostenere il calcolo utilizzando un algoritmo predefinito man mano che il problema cresce.

Questo è un argomento fondamentalmente sbagliato. Ad esempio, se chiedi a una persona che conosce già l’algoritmo necessario per risolvere il problema della Torre di Hanoi di risolvere, diciamo, un problema della Torre di Hanoi da venti dischi, quasi certamente non sarà in grado di farlo. Con questa logica dobbiamo concludere che neanche gli esseri umani possono pensare. Ma questo argomento punta solo all’idea che non ci sono prove che gli LRM non possano pensare. Questo da solo non significa che gli LRM possano pensare; Non possiamo essere sicuri che semplicemente non stiano pensando.

In questo articolo farò un’affermazione più audace: gli LRM possono quasi certamente pensare. Dico “quasi” perché c’è sempre la possibilità che ulteriori ricerche ci sorprendano. Ma penso che la mia affermazione sia abbastanza accurata.

Cos’è il pensiero?

Prima di cercare di capire se gli LRM possono pensare, dobbiamo definire cosa intendiamo per pensiero. Ma prima dobbiamo assicurarci che le persone possano pensare per definizione. Considereremo solo il pensiero risolutivo dei problemi che è in discussione.

1. Rappresentazione del problema (lobi frontali e parietali)

Quando pensi a un problema, il processo coinvolge la tua corteccia prefrontale. Questa regione è responsabile della memoria di lavoro, dell’attenzione e delle funzioni esecutive, capacità che consentono di tenere a mente il problema, scomporlo in sottocomponenti e fissare obiettivi. La corteccia parietale aiuta a codificare la struttura simbolica per problemi di matematica o puzzle.

2. Simulazione mentale (Morning Memory e discorso interiore)

Questo ha due componenti: il primo è un circuito uditivo che ti consente di parlare con te stesso, proprio come la generazione CoT. L’altro sono le immagini visive, che consentono di manipolare visivamente gli oggetti. La geometria era così importante per esplorare il mondo che abbiamo sviluppato abilità speciali per essa. La parte uditiva è collegata all’area di Broca e alla corteccia uditiva, entrambe riutilizzate dai centri linguistici. La corteccia visiva e le aree parietali controllano principalmente la componente visiva.

3. Abbinamento e recupero di pattern (ippocampo e lobi temporali)

Queste azioni dipendono dalle esperienze passate e dalle informazioni archiviate nella memoria a lungo termine:

  • L’ippocampo aiuta a ricordare ricordi e fatti rilevanti.

  • Il Lobo Temporale apporta informazioni semantiche (significati, regole, categorie).

Questo è simile al modo in cui le reti neurali fanno affidamento sulla loro formazione per elaborare il compito.

4. Monitoraggio e valutazione (corteccia cingolata anteriore)

La nostra corteccia cingolata anteriore (ACC) monitora errori, conflitti o situazioni di stallo; È qui che noti contraddizioni o impasse. Questo processo si basa principalmente sulla corrispondenza di modelli di esperienze precedenti.

5. Insight o riformulazione (rete in modalità predefinita ed emisfero destro)

Quando sei bloccato, il tuo cervello potrebbe passare a: modalità predefinita – una rete più rilassata e rivolta all’interno. Questo è quando fai un passo indietro, abbandoni l’argomento corrente e talvolta “improvvisamente” vedi una nuova prospettiva (il classico momento “aha!”).

Sembra così DeepSeek-R1 Addestrato per il ragionamento CoT senza avere esempi CoT nei dati di addestramento. Ricorda, il cervello impara costantemente mentre elabora i dati e risolve i problemi.

Indietro, LRM Non è consentito modificarlo in base al feedback del mondo reale durante la previsione o la creazione. Tuttavia, impara con la formazione CoT di DeepSeek-R1 L’ho fatto Si verifica quando si cerca di risolvere problemi; In sostanza, l’aggiornamento avviene durante il ragionamento.

Somiglianze tra ragionamento CoT e pensiero biologico

LRM non ha tutte le facoltà sopra menzionate. Ad esempio, è improbabile che un LRM esegua molti ragionamenti visivi nel proprio circuito, ma potrebbe farlo un po’. Tuttavia, sicuramente non crea immagini intermedie nella generazione CoT.

La maggior parte delle persone può creare modelli spaziali nella propria testa per risolvere i problemi. Ciò significa che possiamo concludere che gli LRM non possono pensare? Non sono d’accordo con questo. Alcune persone hanno anche difficoltà a creare modelli spaziali dei concetti a cui stanno pensando. Questa situazione si chiama stanno sognando. Le persone con questa condizione possono pensare bene. In effetti, continuano la loro vita come se non avessero talenti. Molti di loro sono in realtà bravi nel ragionamento simbolico e piuttosto bravi anche in matematica; è spesso abbastanza buono da compensare le carenze del ragionamento visivo. Possiamo anche aspettarci che i nostri modelli di rete neurale siano in grado di superare questa limitazione.

Se osserviamo il processo di pensiero umano descritto in precedenza da una prospettiva più astratta, possiamo essenzialmente vedere quanto segue:

1. Il pattern match viene utilizzato per ricordare l’esperienza appresa, rappresentare il problema e monitorare e valutare i flussi di pensiero.

2. La memoria di lavoro serve a memorizzare tutti i passaggi intermedi.

3. La retrospezione conclude che CoT non sta andando da nessuna parte e ritorna a un punto ragionevole.

La corrispondenza dei modelli in un LRM deriva dal suo addestramento. Lo scopo centrale dell’istruzione è apprendere sia le informazioni sul mondo sia i modelli per elaborare tali informazioni in modo efficace. Poiché LRM è una rete a strati, l’intera memoria di lavoro deve rientrare in un unico strato. Mentre i pesi memorizzano informazioni sul mondo e sui modelli da seguire, l’elaborazione avviene tra livelli utilizzando modelli appresi memorizzati come parametri del modello.

Tieni presente che anche con CoT, l’intero testo deve rientrare in ogni livello, inclusi l’input, CoT e parte dell’output pre-renderizzato. La memoria di lavoro è solo uno strato (nel caso del meccanismo di attenzione, questo include la cache KV).

CoT è in realtà molto simile a ciò che facciamo quando parliamo con noi stessi (cosa che quasi sempre accade). Quasi sempre esprimiamo verbalmente i nostri pensieri e un ragionatore CoT fa lo stesso.

Ci sono anche buone prove che chi ragiona CoT può fare passi indietro quando una particolare linea di ragionamento sembra futile. Questo è in realtà ciò che i ricercatori Apple hanno visto quando hanno chiesto agli LRM di risolvere esempi più ampi di semplici enigmi. Gli LRM hanno capito correttamente che provare a risolvere direttamente gli enigmi non sarebbe stato adatto alla loro memoria di lavoro, quindi hanno cercato di trovare scorciatoie migliori, proprio come farebbe un essere umano. Questa è un’ulteriore prova del fatto che gli LRM sono pensatori, non solo seguaci ciechi di modelli predefiniti.

Allora perché qualcuno che indovina il gettone successivo dovrebbe imparare a pensare?

Le reti neurali di dimensioni sufficienti possono apprendere tutti i tipi di calcoli, compreso il pensiero. Ma il prossimo sistema di previsione delle parole può anche imparare a pensare. Lasciami elaborare.

L’idea generale è che gli LRM non possono pensare perché alla fine stanno solo indovinando il token successivo; questo è solo un “glorificato completamento automatico”. Questa visione è fondamentalmente sbagliata; Ciò non significa che sia un “completamento automatico”, ma un “completamento automatico” non ha bisogno di pensare. In effetti, la previsione della parola successiva è ben lungi dall’essere una rappresentazione limitata del pensiero. Al contrario, è la forma più generale di rappresentazione della conoscenza a cui chiunque può aspirare. Lasciami spiegare.

Ogni volta che vogliamo rappresentare le informazioni, abbiamo bisogno di un linguaggio o di un sistema di simbolismo per farlo. Esistono diversi linguaggi formali che sono molto precisi in termini di ciò che possono esprimere. Tuttavia, tali linguaggi sono fondamentalmente limitati nei tipi di informazioni che possono rappresentare.

Ad esempio, la logica dei predicati del primo ordine non può rappresentare le proprietà di tutti i predicati che soddisfano una determinata proprietà perché non consente ai predicati di trovarsi su predicati.

Naturalmente, ci sono calcoli di predicati di ordine superiore che possono rappresentare predicati su predicati a profondità arbitrarie. Ma nemmeno loro possono esprimere idee che mancano di precisione o che sono di natura astratta.

Tuttavia il linguaggio naturale ha piena potenza espressiva; Puoi definire qualsiasi concetto a qualsiasi livello di dettaglio o astrazione. In effetti, puoi persino definire concetti. Di linguaggio naturale che utilizza il linguaggio naturale stesso. Ciò lo rende un forte candidato per la rappresentazione della conoscenza.

Naturalmente, la sfida qui è che questa ricchezza di espressione rende difficile l’elaborazione delle informazioni codificate nel linguaggio naturale. Ma non abbiamo bisogno di capire come farlo manualmente; Possiamo semplicemente programmare la macchina utilizzando i dati attraverso un processo chiamato training.

La prossima macchina per la previsione delle monete calcola essenzialmente la distribuzione di probabilità sulla moneta successiva, dato il contesto delle monete precedenti. Qualsiasi macchina che mira a calcolare con precisione questa probabilità deve in qualche modo rappresentare la conoscenza del mondo.

Un semplice esempio: considera la frase incompleta, "La vetta più alta del mondo…" — Per prevedere che la prossima parola sarà Everest, il modello deve memorizzare questa informazione da qualche parte. Se l’attività richiede che il modello calcoli la risposta o risolva un puzzle, il successivo indovinatore di token deve emettere token CoT per portare avanti la logica.

Ciò significa che anche se prevede un token alla volta, il modello deve rappresentare internamente almeno i prossimi token nella memoria di lavoro; Questo è appena sufficiente per mantenerlo sul percorso logico.

Se ci pensi, le persone possono anche prevedere il prossimo segno mentre parlano o pensano usando la loro voce interiore. Un ottimo sistema di completamento automatico che restituisca sempre i token giusti e produca le risposte giuste deve essere onnisciente. Naturalmente non arriveremo mai a questo punto perché non tutte le risposte sono calcolabili.

Tuttavia, un modello parametrizzato in grado di rappresentare le informazioni adattando i propri parametri e di apprendere attraverso dati e rinforzi può certamente imparare a pensare.

Crea gli effetti del pensiero?

In fin dei conti, la prova definitiva del pensiero è la capacità di un sistema di risolvere problemi che richiedono pensiero. Se un sistema è in grado di rispondere a domande mai viste prima che richiedono un certo livello di ragionamento, deve aver imparato a pensare – o almeno a ragionare – per arrivare alla risposta.

Sappiamo che gli LRM proprietari si comportano molto bene rispetto a determinati criteri di giudizio. Tuttavia, poiché esiste la possibilità che alcuni di questi modelli siano stati modificati nei test di riferimento tramite una backdoor, ci concentreremo solo sui seguenti modelli: modelli open source Per giustizia e trasparenza.

Li valutiamo utilizzando i seguenti criteri:

Come si può vedere, in alcuni benchmark, gli LRM possono risolvere un numero significativo di domande basate sulla logica. Anche se è vero che in molti casi sono ancora inferiori alle prestazioni umane, è importante notare che il riferimento umano spesso proviene da persone specificamente formate su questi parametri. In effetti, in alcuni casi, gli LRM superano la persona media non addestrata.

Soluzione

Sulla base dei risultati dei benchmark, della sorprendente somiglianza tra il ragionamento CoT e il ragionamento biologico e della comprensione teorica che qualsiasi sistema con sufficiente capacità di rappresentazione, dati di addestramento sufficienti e potenza computazionale sufficiente può eseguire qualsiasi compito computabile, gli LRM soddisfano sostanzialmente questi criteri.

Pertanto, è ragionevole concludere che gli LRM sono quasi certamente in grado di pensare.

Debasish Ray Chawdhuri è un ingegnere capo senior presso. Software Talentica e dottorando in Crittografia presso l’IIT Bombay.

Per saperne di più scrittori ospiti. Oppure considera di inviare il tuo! Dai un’occhiata al nostro istruzioni qui.

Collegamento alla fonte