Un nuovo studio di Google suggerisce che i modelli di ragionamento avanzati raggiungono prestazioni elevate simulando discussioni di tipo multi-agente che coinvolgono diverse prospettive, tratti della personalità e competenze di dominio.

I loro esperimenti mostrano che: “società del pensiero” migliora significativamente le prestazioni del modello in compiti complessi di ragionamento e pianificazione. I ricercatori hanno scoperto che i principali modelli di ragionamento come DeepSeek-R1 e QwQ-32B, apprendimento per rinforzo (RL) migliora intrinsecamente la capacità di impegnarsi in conversazioni di comunità di pensiero senza istruzioni esplicite.

Questi risultati forniscono una tabella di marcia su come gli sviluppatori possono creare applicazioni LLM più robuste e su come le aziende possono addestrare modelli superiori utilizzando i propri dati interni.

Cos’è una società del pensiero?

La premessa di base della società del pensiero è che i modelli di ragionamento imparano a imitare i dialoghi sociali con più agenti per migliorare la loro logica. Questa ipotesi trae spunto dalle scienze cognitive, in particolare dall’idea che la mente umana si è evoluta come un processo sociale per risolvere problemi principalmente attraverso la discussione e l’interazione con diverse prospettive.

Lo scrivono i ricercatori "La diversità cognitiva derivante dalle differenze nelle competenze e nei tratti della personalità migliora la risoluzione dei problemi, soprattutto se accompagnata da una reale opposizione." Di conseguenza, suggeriscono che l’integrazione di diverse prospettive consente ai LLM di sviluppare solide strategie di ragionamento. Simulando conversazioni tra diversi addetti ai lavori dell’azienda, i modelli possono eseguire controlli di base (come la convalida e il backtracking) che aiutano a evitare trappole comuni come pregiudizi e adulazione involontari.

In modelli come DeepSeek-R1, questo "società" si manifesta direttamente nella catena del pensiero. I ricercatori sottolineano che non sono necessari modelli o suggerimenti separati per forzare questa interazione; l’argomentazione nasce autonomamente all’interno del processo di ragionamento di una singola istanza del modello.

Esempi di società del pensiero

Lo studio fornisce esempi concreti di come questo attrito interno porti a risultati migliori. In un esperimento che coinvolgeva un complesso problema di sintesi di chimica organica, DeepSeek-R1 simulato un dibattito tra molteplici diverse prospettive interne; "pianificatore" e uno "Verificatore critico."

Planner inizialmente propose un percorso di reazione standard. Tuttavia, il Validatore Critico (caratterizzato da elevata coscienziosità e bassa gradevolezza) è intervenuto per contestare il presupposto e fornire una controargomentazione con nuovi fatti. Attraverso questo controllo contraddittorio, il modello ha scoperto l’errore, ha riconciliato le visioni contrastanti e ha corretto il percorso di sintesi.

Una dinamica simile è emersa nei compiti creativi. Quando gli è stato chiesto di riscrivere la frase, "Ho gettato il mio odio nel fuoco ardente," il modello simulava la negoziazione tra una persona "Pensatore creativo" e uno "Controllo della correttezza semantica." Dopo che l’ideatore ha suggerito una versione usando la parola "seduto in profondità," il controllore ha risposto: "Ma questo aggiunge “profondità” che non c’era nell’originale. Dovremmo evitare di aggiungere nuove idee." Il modello alla fine raggiunse un compromesso che mantenne il significato originale migliorandone lo stile.

Forse lo sviluppo più sorprendente è "Gioco del conto alla rovescia," Un puzzle matematico in cui il modello deve utilizzare determinati numeri per raggiungere il valore target. All’inizio della formazione, il modello ha tentato di risolvere il problema utilizzando un approccio monologo. Come ha appreso tramite RL, si è diviso spontaneamente in due persone separate: "Risolutore metodico di problemi" fare calcoli e "Pensatore della scoperta" monitorare i progressi, interrompere i percorsi falliti con parole come "Ancora una volta senza fortuna… Forse possiamo provare a usare numeri negativi," Incoraggiare il risolutore procedurale a cambiare strategie.

Questi risultati mettono in discussione l’ipotesi secondo cui catene di pensiero più lunghe si traducono automaticamente in una maggiore precisione. Invece, una varietà di comportamenti guidano miglioramenti nel ragionamento, come guardare le risposte attraverso lenti diverse, confermare ipotesi precedenti, tornare sui propri passi ed esplorare alternative. I ricercatori hanno amplificato questo fenomeno manipolando artificialmente il campo di attivazione di un modello per indurre la sorpresa del parlato; Questo intervento ha raddoppiato la precisione su compiti complessi attivando una gamma più ampia di tratti legati alla personalità e alla competenza.

Ciò significa che il ragionamento sociale avviene in modo autonomo attraverso RL in funzione della spinta del modello a produrre risposte corrette, piuttosto che di un palese controllo umano. In effetti, i modelli di addestramento per i monologhi hanno sottoperformato il RL grezzo, che naturalmente migliora il discorso con più agenti. Al contrario, le prestazioni messa a punto supervisionata (SFT) ha sovraperformato significativamente l’SFT su linee di pensiero standard nelle negoziazioni e nei dibattiti multipartitici.

Implicazioni per l’intelligenza artificiale aziendale

Per gli sviluppatori e i decisori aziendali, queste informazioni forniscono linee guida pratiche per creare applicazioni IA più potenti.

Ingegneria rapida per il “conflitto”

Gli sviluppatori possono migliorare il ragionamento nei modelli generici incoraggiandoli esplicitamente ad adottare una struttura di comunità di pensiero. Tuttavia, chiedere alla modella di chattare con te non è sufficiente.

"Non è sufficiente “dibattere”, occorre avere punti di vista e tendenze diverse che rendono il dibattito inevitabile e consentono alla discussione di esplorare alternative e distinguerle." James Evans, coautore dello studio, ha dichiarato a VentureBeat:

Invece di ruoli generici, gli sviluppatori dovrebbero progettare orientamenti che assegnino disposizioni opposte (ad esempio, un responsabile della conformità avverso al rischio rispetto a un product manager orientato alla crescita) per forzare il modello a distinguere tra alternative. Anche semplici indizi che portano la modella ad esprimere "sorpresa" questo può innescare modi di ragionamento superiori.

Progettare per la scalabilità sociale

Gli sviluppatori calcolano il tempo di test utilizzando i modelli "pensare" per un periodo di tempo più lungo, dovrebbero strutturare questo tempo come un processo sociale. Le applicazioni dovrebbero essere facilitanti "sociale" Il processo mediante il quale il modello utilizza pronomi come "Noi," Si pone domande e discute apertamente le alternative prima di decidere una risposta.

Questo approccio può essere esteso anche ai sistemi multi-agente, in cui diverse personalità assegnate a diversi rappresentanti partecipano a discussioni critiche per raggiungere decisioni migliori.

Interrompi la cancellazione dei dati di allenamento

Forse l’aspetto più importante risiede nel modo in cui le aziende addestrano o perfezionano i propri modelli. Tradizionalmente, i team di dati hanno "Risposte d’oro" Fornire percorsi lineari e perfetti verso la soluzione. Lo studio suggerisce che questo potrebbe essere un errore.

I modelli ottimizzati sui dati della conversazione (ad esempio, trascrizioni di discussioni e soluzioni tra più agenti) migliorano il ragionamento significativamente più velocemente di quelli addestrati su monologhi puliti. C’è valore anche negli argomenti che non portano alla risposta giusta.

"Ci siamo allenati sull’impalcatura del discorso che portava alla risposta sbagliata, poi abbiamo rinforzato il modello e abbiamo scoperto che funzionava altrettanto bene nel rafforzare la risposta corretta; Ciò ha suggerito che le abitudini conversazionali per scoprire soluzioni erano più importanti per i nuovi problemi." Ha detto Evans.

Ciò significa che le aziende devono smettere di buttare via i rifiuti "disordinato" Log di progettazione o thread Slack in cui i problemi vengono risolti in modo iterativo. "ingombrare" È qui che il modello impara l’abitudine alla scoperta.

Scoprire la “scatola nera” per la fiducia e il controllo

Per i casi d’uso aziendali ad alto rischio, ottenere semplicemente una risposta non è sufficiente. Evans sostiene che gli utenti devono vedere un’opposizione interna per fidarsi dell’output e suggerisce un cambiamento nella progettazione dell’interfaccia utente.

"Abbiamo bisogno di una nuova interfaccia che ci mostri sistematicamente le discussioni interne in modo che possiamo “partecipare” alla definizione della risposta giusta." Ha detto Evans. "Facciamo meglio con la discussione; Le IA sono più brave a discutere; e facciamo meglio quando siamo esposti alla discussione sull’intelligenza artificiale."

Caso strategico per i pesi aperti

Questi risultati forniscono un nuovo argomento nella ricerca. "costruire e acquistare" Discussione sui modelli a dominanza aperta rispetto alle API private. Molti modelli di ragionamento proprietari nascondono il loro filone di pensiero trattando la discussione interna come un segreto commerciale o una responsabilità di sicurezza.

Tuttavia, Evans sostiene: "Nessuno è mai riuscito a fornire una giustificazione per smascherare questa comunità di pensiero," ma il valore del controllo di questi conflitti interni diventa innegabile. Fino a quando i fornitori proprietari non offriranno piena trasparenza, le aziende dei settori ad alta conformità potrebbero scoprire che i modelli con forti lacune offrono un netto vantaggio: la capacità di vedere non solo la decisione, ma anche l’opposizione.

"Credo che i grandi modelli privati ​​inizieranno a offrire (e concedere in licenza) informazioni una volta che si renderanno conto che l’informazione ha valore." Ha detto Evans.

La ricerca suggerisce che il lavoro di un architetto AI si sta spostando dalla pura formazione su modelli a qualcosa di più vicino alla psicologia organizzativa.

"Credo che questo apra un orizzonte completamente nuovo nella progettazione di piccoli gruppi e organizzazioni all’interno e tra modelli che consentiranno nuove classi di prestazioni." Ha detto Evans. "Il mio team sta lavorando su questo e spero che lo facciano anche gli altri."

Collegamento alla fonte