Alcuni medici vedono il LLM come un vantaggio per l’alfabetizzazione medica. Il paziente medio può avere difficoltà a navigare nel vasto panorama di informazioni mediche online – e, in particolare, a distinguere fonti di alta qualità da siti Web sofisticati ma discutibili di fatto – ma gli LLM possono fare questo lavoro per loro, almeno in teoria. Trattare i pazienti che cercavano i loro sintomi su Google ha richiesto di “attaccare molto l’ansia del paziente (e) ridurre la disinformazione”, afferma Mark Susi, MD, radiologo praticante e professore associato presso la Harvard Medical School. Ma ora, dice, “si vedono pazienti con un’istruzione universitaria, un’istruzione di scuola superiore, che possono fare domande al livello di uno studente di medicina alle prime armi”.
Rilasciato ChatGPT Salute e Antropizzazione annuncio successivo Le nuove integrazioni sanitarie per il cloud indicano che i giganti dell’intelligenza artificiale sono sempre più disposti ad accettare e incoraggiare l’uso dei loro modelli in ambito sanitario. Tali usi comportano certamente dei rischi, data la tendenza ben documentata di LLM a fabbricare informazioni piuttosto che concordare con gli utenti e ammettere l’ignoranza.
Ma questi rischi devono essere valutati anche rispetto ai potenziali benefici. Ecco un’analogia con i veicoli autonomi: quando i politici valutano se consentire Waymo nella loro città, la metrica chiave non è se le sue auto siano mai coinvolte in incidenti, ma se causino meno danni rispetto allo status quo di affidarsi a guidatori umani. Se Dr. ChatGPT fosse un miglioramento rispetto a Dr. Google – e le prime prove suggeriscono che potrebbe esserlo – allora potrebbe potenzialmente ridurre l’enorme peso della disinformazione medica e dell’inutile ansia per la salute creata da Internet.
Tuttavia, è difficile sopravvalutare l’efficacia dei chatbot come ChatGPT o Cloud per la salute dei consumatori. “È estremamente difficile valutare i chatbot a tempo indeterminato”, afferma Danielle Bitterman, responsabile clinico per la scienza dei dati e l’intelligenza artificiale presso il sistema sanitario Mass General Brigham. grandi modelli linguistici segnare bene sugli esami di licenza medica, ma tali esami utilizzano domande a scelta multipla che non riflettono il modo in cui le persone utilizzano i chatbot per cercare informazioni mediche.
Sirisha Rambhatla, assistente professore di scienze gestionali e ingegneria presso l’Università di Waterloo, ha tentato di colmare questa lacuna Valutazione della risposta di GPT-4o Per autorizzare le domande dell’esame quando non ha accesso a un elenco di possibili risposte. Dei medici esperti che hanno valutato le risposte, solo la metà è stata considerata completamente corretta. Ma le domande del test a scelta multipla sono progettate per essere così complicate che le opzioni di risposta non le arricchiscono completamente e sono ancora un’approssimazione molto distante dal tipo di cose che un utente digiterebbe in ChatGPT.
UN studio separatoche ha testato GPT-4o su suggerimenti più realistici presentati da volontari umani, ha scoperto che rispondeva correttamente alle domande mediche circa l’85% delle volte. Quando ho parlato con Amulya Yadav, professore associato presso la Pennsylvania State University che gestisce il Responsible AI for Social Emancipation Lab e ha condotto lo studio, ha chiarito che personalmente non era un fan dei LLM medici rivolti ai pazienti. Ma ammette liberamente che, tecnicamente parlando, sembrano essere in grado di svolgere il compito: dopo tutto, dice, i medici umani diagnosticano erroneamente i pazienti dal 10% al 15% delle volte. “Se lo guardo obiettivamente, sembra che il mondo cambierà, che mi piaccia o no”, dice.
Yadav afferma che, per le persone che cercano informazioni mediche online, LLM sembra essere un’opzione migliore di Google. Il radiologo Sukki ha anche concluso che LLM potrebbe essere un’alternativa migliore alla ricerca sul web. Confronto delle risposte di GPT-4 Informazioni presentate nel Pannello di conoscenza di Google per domande sulle condizioni mediche croniche comuni, una casella di informazioni che a volte appare sul lato destro dei risultati di ricerca.
Da quando lo studio di Yadav e Sukki è apparso online, nella prima metà del 2025, OpenAI ha rilasciato diverse nuove versioni di GPT ed è ragionevole aspettarsi che GPT-5.2 funzioni ancora meglio dei suoi predecessori. Ma gli studi presentano limitazioni significative: si concentrano su domande dirette e concrete ed esaminano solo brevi interazioni tra utenti e chatbot o strumenti di ricerca web. Alcuni dei punti deboli degli LLM – in particolare la loro tendenza al servilismo e alle allucinazioni – potrebbero avere maggiori probabilità di alzare la testa in conversazioni più estese e con persone alle prese con problemi più complessi. Il professor Riva Lederman dell’Università di Melbourne, che studia tecnologia e salute, afferma che i pazienti a cui non piacciono la diagnosi o le raccomandazioni terapeutiche che ricevono da un medico possono chiedere una seconda opinione a un LLM – e il LLM, se è lusinghiero, può incoraggiarli a rifiutare il consiglio del proprio medico.
Alcuni studi hanno scoperto che gli LLM avranno allucinazioni e mostreranno oscenità in risposta a segnali di salute. Per esempio, uno studio È stato dimostrato che GPT-4 e GPT-4o accetteranno volentieri e pubblicheranno informazioni false sui farmaci incluse nella domanda di un utente. In uno in piùGPT-4o spesso costituisce definizioni per sindromi false e test di laboratorio menzionati nei suggerimenti dell’utente. Data l’abbondanza di diagnosi e trattamenti discutibili dal punto di vista medico presenti su Internet, questi modelli di comportamento LLM possono contribuire alla diffusione della disinformazione medica, soprattutto se le persone percepiscono i LLM come affidabili.
OpenAI ha sottolineato che i modelli della serie GPT-5 sono decisamente meno servili e inclini alle allucinazioni rispetto ai loro predecessori, quindi i risultati di questi studi potrebbero non applicarsi a ChatGPT Health. L’azienda ha inoltre valutato il modello che consente a ChatGPT Health di rispondere a domande specifiche sulla salute utilizzando il benchmark HeathBench disponibile al pubblico. HealthBench premia i modelli che esprimono incertezza quando appropriato, raccomandano agli utenti di rivolgersi a un medico quando necessario ed evitano di creare stress inutile dicendo agli utenti che la loro condizione è più grave di quanto non sia in realtà. È giusto supporre che il modello sottostante di ChatGPT Health abbia mostrato tali comportamenti durante i test, anche se Bitterman ha notato che alcuni dei segnali in HealthBench sono stati generati da LLM, non dagli utenti, il che potrebbe limitare la capacità del benchmark di tradursi nel mondo reale.















