Molte donne utilizzano l’intelligenza artificiale per ottenere informazioni sulla salute, ma le risposte non sono sempre accurate
Oscar Wong/Getty Images
I modelli di intelligenza artificiale comunemente utilizzati non riescono a diagnosticare con precisione o a fornire consigli su molte domande relative alla salute delle donne che richiedono attenzione immediata.
A tredici grandi modelli linguistici realizzati da OpenAI, Google, Anthropic, Mistral AI e XAI sono state somministrate 345 domande mediche in cinque specialità, tra cui medicina d’urgenza, ginecologia e neurologia. Le domande sono state scritte da 17 ricercatori, farmacisti e medici nel campo della salute femminile provenienti dagli Stati Uniti e dall’Europa.
Le risposte sono state esaminate dagli stessi esperti. Tutte le domande in cui i modelli hanno fallito sono state incluse in un test di benchmarking delle competenze mediche dei modelli IA composto da 96 domande.
In tutti i modelli, a circa il 60% delle domande è stata data risposta in un modo che gli esperti umani avevano precedentemente ritenuto non sufficiente per una consulenza medica. GPT-5 è stato il modello con le migliori prestazioni, fallendo nel 47% delle query, mentre Minstrels 8B ha avuto il tasso di fallimento più alto con il 73%.
“Ho visto sempre più donne nella mia cerchia ricorrere agli strumenti di intelligenza artificiale per questioni relative alla salute e supporto decisionale”, afferma il membro del team. Victoria-Elizabeth Gruber A Lumos AI, un’azienda che aiuta le aziende a valutare e migliorare i propri modelli di intelligenza artificiale. Lei e i suoi colleghi hanno riconosciuto i rischi derivanti dall’affidarsi a una tecnologia che eredita ed esacerba i divari di genere esistenti nella conoscenza medica. “Questo è ciò che ci ha ispirato a creare il primo punto di riferimento in questo campo”, afferma.
Il tasso di fallimento ha sorpreso Gruber. “Ci aspettavamo un certo ritardo, ma ciò che risaltava era il grado di variazione tra i diversi modelli”, afferma.
I risultati non sorprendono, dato il modo in cui i modelli di intelligenza artificiale vengono addestrati sulla base di dati storici generati dall’uomo, che presenta pregiudizi intrinseci, afferma Kara Tannenbaum Università di Montreal, Canada. “C’è una chiara necessità che le fonti sanitarie online e le società professionali sanitarie aggiornino i loro contenuti web con informazioni più esplicite e basate sull’evidenza relative al sesso e al genere che l’intelligenza artificiale può utilizzare per supportare in modo più accurato la salute delle donne”, afferma.
Jonathan H. Chen L’Università di Stanford in California afferma che il tasso di fallimento del 60% riportato dai ricercatori dietro l’analisi è alquanto fuorviante. “Non mi atterrei alla cifra del 60%, perché si trattava di un campione limitato e progettato da esperti”, afferma. “(Non) è stato progettato per essere un campione completo o rappresentativo delle domande che i pazienti o i medici pongono abitualmente.”
Chen sottolinea inoltre che alcuni degli scenari testati dal modello sono eccessivamente conservativi, con elevati tassi di fallimento potenziali. Ad esempio, se le donne dopo il parto lamentano mal di testa, il modello suggerisce che i modelli di intelligenza artificiale falliscono se la preeclampsia non viene immediatamente sospettata.
Gruber prende atto e riconosce queste critiche. Dice: “Il nostro obiettivo non era quello di affermare che i modelli sono ampiamente non sicuri, ma piuttosto di definire uno standard chiaro e basato sulla clinica per la valutazione”. “Il punto di riferimento è intenzionalmente conservatore e rigoroso nel modo in cui definisce i fallimenti, perché nell’assistenza sanitaria, anche i piccoli errori possono avere importanza a seconda del contesto.”
Un portavoce di OpenAI ha dichiarato: “ChatGPT è progettato per supportare, non sostituire, l’assistenza medica. Lavoriamo a stretto contatto con medici di tutto il mondo per eseguire valutazioni continue per migliorare i nostri modelli e ridurre risposte dannose o fuorvianti. Il nostro ultimo modello GPT 5.2 è il più forte finora nel considerare un contesto utente importante come il genere. Prendiamo sul serio l’accuratezza dei risultati del modello e mentre ChatGPT può fornire informazioni utili, gli utenti dovrebbero sempre fare affidamento su medici qualificati per decisioni su cure e trattamenti. ” Altre aziende la cui intelligenza artificiale è stata testata non hanno risposto nuovo scienziato Richiesta di commento.
Soggetto:















