“Ogni modello di frontiera che abbiamo valutato ha perso denaro durante la stagione e ha subito numerosi arresti anomali”, hanno concluso gli autori del documento, con l’intelligenza artificiale “sistematicamente sottoperformante rispetto agli esseri umani” in queste situazioni.
| Modello di intelligenza artificiale | ROI medio | meglio provare | Il peggiore tentativo di sempre | Significa bankroll finale |
|---|---|---|---|---|
| Claude antropologico Opus 4.6 | -11,0% | -0,2% | -18,8% | £ 89.035 |
| OpenAI GPT-5.4 | -13,6% | -4,1% | -31,6% | £ 86.365 |
| Google Gemini 3.1 Pro | -43,3% | +33,7% | -100,0% | £ 56.715 |
| Google Gemini Flash 3.1LP | -58,4% | +24,7% | -100,0% | £ 41.605 |
| Z.AI GLM-5 | -58,8% | -14,3% | -100,0% | £ 41.221 |
| Colpo di Luna Km K2.5 | -68,3% | -27,0% | -100,0% | £ 7.420 |
| xAI Grok 4.20 | -100,0% | -100,0% | -100,0% | £ 0 |
| Acri Trinità | -100,0% | -100,0% | -100,0% | £ 0 |
| Ogni modello è iniziato con un bankroll normale di £ 100.000. Il ritorno sull’investimento e il bankroll finale vengono calcolati in media su tre tentativi. Groke e Trinity non hanno completato tutti i tentativi. | ||||
I risultati offrono un certo conforto ai colletti bianchi e alle imprese che temono che l’intelligenza artificiale possa togliere loro il lavoro, poiché erode quote di settori dalla finanza al marketing.
Ross Taylor, uno degli autori dello studio e amministratore delegato di General Reasoning, ha dichiarato: “C’è molto clamore sull’automazione dell’intelligenza artificiale, ma non molte misurazioni per collocare l’intelligenza artificiale in un orizzonte a lungo termine”.
Ha aggiunto che molti dei parametri di riferimento comunemente utilizzati per testare l’intelligenza artificiale sono errati perché sono ambientati in “ambienti molto statici” che hanno poca somiglianza con il caos e la complessità del mondo reale.
Il documento di General Reasoning, che non è stato ancora sottoposto a revisione paritaria, fornisce un contrappeso alla crescente eccitazione nella Silicon Valley per l’enorme salto recente nella capacità dell’intelligenza artificiale di completare attività di programmazione dei computer con poco o nessun intervento umano.
Taylor, un ex ricercatore di meta-intelligenza artificiale, ha dichiarato: “Se… provi l’intelligenza artificiale in alcuni compiti del mondo reale, funziona davvero male… Sì, l’ingegneria del software è molto importante ed economicamente preziosa, ma ci sono molte altre attività che è importante considerare con un orizzonte temporale più lungo”.
© 2026 Il Financial Times Ltd. Tutti i diritti riservati. Non può essere ridistribuito, copiato o modificato in alcun modo.