Usare modelli linguistici di grandi dimensioni per ottenere consigli medici e prendere decisioni mediche è una pratica rischiosa, avverte un nuovo studio.

Lo studio, condotto da ricercatori dell’Università di Oxford, ha fornito a 1.300 partecipanti condizioni mediche specifiche sviluppate dai medici.

I partecipanti sono stati quindi divisi in due gruppi: uno ha cercato consulenza medica da un LLM come ChatGPT di OpenAI, mentre l’altro ha raccolto informazioni da fonti tradizionali.

I risultati hanno mostrato un ampio divario tra LLM e utenti.

Sebbene i LLM eccellano nella comprensione dei farmaci e delle pratiche standard, aiutare gli utenti con i loro problemi medici richiede un livello di comunicazione che i LLM faticano a raggiungere.

“Nonostante tutto il clamore pubblicitario, l’intelligenza artificiale non è pronta solo ad assumere il ruolo del medico”, ha spiegato in un comunicato stampa la dott.ssa Rebecca Payne, il medico capo dello studio.

“I pazienti devono essere consapevoli che chiedere un ampio modello linguistico riguardo ai loro sintomi può essere pericoloso, poiché fa una diagnosi errata e non riesce a riconoscere quando è necessario un aiuto di emergenza”.

Interruzione della comunicazione

I risultati della ricerca hanno dimostrato che gli LLM non forniscono risultati migliori rispetto ai metodi tradizionali di valutazione delle condizioni mediche, come la ricerca di informazioni su Internet o l’utilizzo del miglior giudizio di un individuo.

I LLM non sempre capivano cosa chiedeva un partecipante e gli utenti spesso non sapevano come fornire informazioni accurate ai LLM.

A causa della disconnessione tra persona e macchina, è meno probabile che i LLM forniscano buoni consigli.

“I sistemi di intelligenza artificiale necessitano di test rigorosi”

Nel frattempo, i LLM spesso forniscono un mix di consigli buoni e cattivi. Senza l’aiuto di un medico, i partecipanti allo studio spesso non erano in grado di separare e distinguere i due.

L’autore senior Adam Mahdi dell’Oxford Internet Institute ha affermato che il divario tra LLM e pazienti dovrebbe essere un “campanello d’allarme” per sviluppatori e regolatori.

“Non possiamo fare affidamento solo su test standardizzati per determinare se questi sistemi sono sicuri per l’uso pubblico”, ha affermato Mahdi. “Proprio come abbiamo bisogno di sperimentazioni cliniche per nuovi farmaci, i sistemi di intelligenza artificiale necessitano di test rigorosi con utenti reali e diversificati per comprendere le loro reali capacità in contesti ad alto rischio come l’assistenza sanitaria”.

Un problema comune

Consultare un LLM per una consulenza medica è una pratica sempre più comune, in particolare negli Stati Uniti, dove l’assistenza sanitaria è spesso proibitiva.

Secondo un sondaggio pubblicato a settembre da una piattaforma di intelligenza artificiale, più di un quinto degli americani ha ammesso di aver seguito i consigli di un chatbot che poi si sono rivelati sbagliati.

In un altro studio pubblicato nel giugno 2025, i ricercatori hanno utilizzato strumenti di sviluppo per vedere se potevano programmare gli LLM per fornire informazioni false.

Hanno scoperto che potevano farlo facilmente e i chatbot fornivano con sicurezza informazioni errate nell’88% dei casi.

“Se questi sistemi potessero essere manipolati segretamente per fornire consigli falsi o fuorvianti, potrebbero creare una nuova potente via per la disinformazione che sarebbe più difficile da individuare, più difficile da controllare e più persuasiva di qualsiasi cosa vista prima”, ha avvertito in una dichiarazione l’autore dello studio Natansh Modi dell’Università del Sud Africa.

Newsweek Gli autori dello studio sono stati raggiunti per un commento via e-mail.

Collegamento alla fonte