Nelle organizzazioni in cui questo approccio è emerso e ha iniziato a essere implementato, il primo passo è spostare l’unità di analisi.
Ad esempio, in un sistema ospedaliero del Regno Unito nel periodo 2021-2024, la domanda si è estesa dal fatto se l’applicazione dell’IA medica migliora l’accuratezza clinica al modo in cui la presenza dell’IA all’interno dei team multidisciplinari ospedalieri influisce non solo sull’accuratezza ma anche sul coordinamento e sulla deliberazione. L’ospedale ha valutato specificamente il coordinamento e la deliberazione tra i team umani, utilizzando e non utilizzando l’intelligenza artificiale. Molteplici parti interessate (all’interno e all’esterno dell’ospedale) hanno giudicato parametri come il modo in cui l’intelligenza artificiale influisce sul ragionamento collettivo, se porta in primo piano punti di vista trascurati, se rafforza o indebolisce il coordinamento e se modifica le pratiche consolidate di rischio e conformità.
Questo cambiamento è fondamentale. Ciò ha molto senso in contesti ad alto rischio in cui gli impatti a livello di sistema contano più della precisione a livello di attività. Ciò conta anche per l’economia. Ciò potrebbe aiutare a ricalibrare le aspettative gonfiate di incrementi di produttività più ampi che finora sono state in gran parte basate sulla promessa di migliorare le prestazioni lavorative individuali.
Una volta stabilite queste basi, il benchmarking HAIC può iniziare ad abbracciare l’elemento tempo.
Gli standard odierni assomigliano agli esami scolastici: test di accuratezza standardizzati una tantum. Ma la reale competenza professionale viene valutata diversamente. Sotto supervisione, i medici e gli avvocati in formazione vengono continuamente valutati all’interno del flusso di lavoro vero e proprio, con cicli di feedback e strutture di responsabilità. La performance si misura nel tempo e in un contesto specifico, perché la competenza è relazionale. Se i sistemi di intelligenza artificiale fossero costruiti per operare con i professionisti, il loro impatto dovrebbe essere misurato longitudinalmente, mostrando come si sviluppano le prestazioni nel corso di interazioni ripetute.
Ho visto questo aspetto dell’HAIC applicato in uno dei miei casi di studio nel campo delle discipline umanistiche. Per 18 mesi, un sistema di intelligenza artificiale è stato valutato all’interno di un flusso di lavoro reale, prestando particolare attenzione a quanto fossero rilevabili i suoi errori, ovvero alla facilità con cui i team umani potevano identificarli e correggerli. Questa “registrazione del rilevamento degli errori” a lungo termine significa che le organizzazioni coinvolte possono progettare e testare guardrail specifici per il contesto per promuovere la fiducia nel sistema, nonostante l’inevitabilità di errori occasionali dell’IA.
L’orizzonte a lungo termine rende inoltre visibili i risultati a livello di sistema che i parametri di riferimento a breve termine non riescono a cogliere. Un’applicazione di intelligenza artificiale può superare le prestazioni di un singolo medico in un compito diagnostico ristretto, ma non riesce a migliorare il processo decisionale multidisciplinare. Peggio ancora, potrebbe introdurre distorsioni sistemiche: coinvolgere i team troppo rapidamente in risposte plausibili ma incomplete, aumentando il carico di lavoro cognitivo delle persone o generando inefficienze a valle che compensano qualsiasi aumento di velocità o efficienza nel punto di utilizzo dell’IA. Questi effetti a catena, spesso invisibili agli attuali parametri di riferimento, sono fondamentali per comprendere l’impatto reale.
L’approccio HAIC, presumibilmente, promette di rendere il benchmarking più complesso, dispendioso in termini di risorse e difficile da standardizzare. Ma continuare a valutare l’intelligenza artificiale in contesti sterilizzati e isolati dal mondo del lavoro ci porterà a fraintendere ciò che può e non può fare effettivamente per noi. Per implementare l’intelligenza artificiale in modo responsabile nei contesti del mondo reale, dobbiamo misurare ciò che conta davvero: non solo ciò che un modello può fare da solo, ma ciò che consente – o indebolisce – quando gli esseri umani e i team lavorano con esso nel mondo reale.
Angela Aristidou è professoressa presso l’University College di Londra e Faculty Fellow presso lo Stanford Digital Economy Lab e lo Stanford Human-Centered AI Institute. Parla, scrive e fornisce consulenza sull’implementazione nella vita reale di strumenti di intelligenza artificiale per il bene pubblico.















