Per capire quali siano effettivamente gli orizzonti temporali del modello è utile conoscere tutto il lavoro che METR fa nel calcolarli. Per prima cosa, il team METR ha messo insieme una serie di attività che spaziavano da rapide domande a scelta multipla a sfide di codifica dettagliate, tutte in qualche modo rilevanti per l’ingegneria del software. Hanno quindi chiesto a programmatori umani di eseguire la maggior parte di questi compiti e di valutare quanto tempo impiegavano per completarli. Pertanto, hanno assegnato un tempo di riferimento umano alle attività. Alcune attività hanno richiesto agli esperti solo pochi secondi, mentre altre hanno richiesto diverse ore.
Quando METR ha testato modelli linguistici di grandi dimensioni su una serie di compiti, ha scoperto che i modelli avanzati potevano completare con facilità compiti sempre più veloci, ma quando i modelli tentavano compiti che richiedevano sempre più tempo agli esseri umani per essere completati, la loro precisione ha cominciato a diminuire. Dalle prestazioni di un modello, i ricercatori hanno calcolato il punto sulla scala temporale delle attività umane in cui il modello avrebbe completato con successo circa il 50% delle attività. Quel punto è l’orizzonte temporale del modello.
Tutti questi dettagli sono nel post del blog e nel documento accademico che METR ha pubblicato con la trama dell’orizzonte temporale originale. Ma i grafici METR vengono spesso diffusi sui social media senza questo contesto, e quindi il vero significato della metrica dell’orizzonte temporale può perdersi nella confusione. Un malinteso comune è che i numeri sull’asse y del grafico – ad esempio, circa cinque ore per Cloud Opus 4.5 – rappresentino il periodo di tempo in cui i modelli possono funzionare in modo indipendente. non lo fanno. Riflettono il tempo impiegato dagli esseri umani per completare le attività che un modello può eseguire con successo. Qua ha visto questo errore così spesso che ha deciso di correggerlo all’inizio del suo recente post sul blog, e quando gli è stato chiesto quali informazioni avrebbe aggiunto alle versioni della trama che circolano online, ha detto che avrebbe incluso la parola “umano” ogni volta che l’attività fosse stata completata.
Non importa quanto complesso e ampiamente frainteso possa essere il concetto di orizzonte temporale, ha comunque un senso: un modello con un orizzonte temporale di un’ora può automatizzare alcune delle parti minori del lavoro di un ingegnere del software, mentre un modello con un orizzonte temporale di 40 ore può potenzialmente automatizzare giorni di lavoro. Ma alcuni esperti si chiedono se il tempo impiegato dagli esseri umani per svolgere attività sia un parametro efficace per misurare le capacità dell’intelligenza artificiale. “Non penso che sia necessariamente un dato di fatto che, poiché qualcosa richiede più tempo, sarà un compito più difficile”, afferma Inioluwa Deborah Raji, una studentessa di dottorato alla UC Berkeley che studia la valutazione dei modelli.
Von Arx afferma che inizialmente dubitava che l’orizzonte temporale fosse la misura corretta da utilizzare. Ciò che lo ha convinto è stato vedere i risultati delle analisi sue e dei suoi colleghi. Quando hanno calcolato l’orizzonte temporale del 50% per tutti i principali modelli disponibili all’inizio del 2025 e poi hanno tracciato ciascuno di essi su un grafico, hanno visto che l’orizzonte temporale per i modelli di livello superiore stava aumentando nel tempo – e, inoltre, il tasso di progresso stava accelerando. Ogni sette mesi, l’intervallo di tempo raddoppia, il che significa che i modelli più avanzati possono completare attività che richiedono agli esseri umani nove secondi a metà del 2020, quattro minuti all’inizio del 2023 e 40 minuti alla fine del 2024. “Posso teorizzare tutto quello che voglio, che lo voglia o no, ma la tendenza c’è”, dice von Arx.
È questo schema drammatico che ha reso la trama di METR un tale successo. Quando molte persone hanno letto, ne sono venute a conoscenza ai 2027Una storia di fantascienza virale con previsioni quantitative che suggerisce che l’intelligenza artificiale superintelligente potrebbe spazzare via l’umanità entro il 2030. Gli autori di AI 2027 hanno basato alcune delle loro previsioni sulla trama di METR e ne hanno ampiamente citato le informazioni. Nelle parole di von Arx, “È un po’ strano quando così tante persone che hanno familiarità con il tuo lavoro hanno questa interpretazione così stravagante.”
Naturalmente, molte persone invocano una cospirazione del METR senza immaginare morte e distruzione di massa. Per alcuni promotori dell’intelligenza artificiale, la tendenza esponenziale indica che l’intelligenza artificiale presto inaugurerà un’era di sviluppo economico radicale. Ad esempio, la società di venture capital Sequoia Capital ha recentemente pubblicato un post intitolato “2026: è l’AGI” Chi ha utilizzato il complotto del METR per sostenere che presto arriverà l’intelligenza artificiale in grado di agire come dipendente o appaltatore. “La provocazione in realtà era: ‘Cosa farai quando i tuoi piani saranno misurati in secoli?’ afferma Sonya Huang, socio accomandatario di Sequoia e una degli autori del post.
Tuttavia, solo perché un modello raggiunge un orizzonte temporale di un’ora su un grafico METR non significa che possa sostituire un’ora di lavoro umano nel mondo reale. Per prima cosa, i compiti in base ai quali vengono valutati i modelli non riflettono la complessità e la confusione del lavoro nel mondo reale. Nel loro studio originale, Qu, von Arx e i loro colleghi hanno misurato la “disordine” di ciascun compito in base a criteri quali se il modello sa esattamente come viene valutato e se può facilmente ricominciare se commette un errore (per i compiti sporchi, la risposta a entrambe le domande sarebbe no). Hanno scoperto che i modelli hanno ottenuto risultati significativamente peggiori nei compiti disordinati, sebbene il modello generale di miglioramento fosse simile sia per i compiti disordinati che per quelli non disordinati.















