Home Tecnologia Esistono più strumenti sanitari basati sull’intelligenza artificiale che mai, ma quanto funzionano?

Tecnologia

Esistono più strumenti sanitari basati sull’intelligenza artificiale che mai, ma quanto funzionano?

30 Marzo 2026

Singhal, il capo sanitario di OpenAI, afferma che la serie di modelli GPT-5 esistente dell’azienda, che non era ancora stata rilasciata quando è stato condotto lo studio originale HealthBench, svolgono un lavoro migliore nel ottenere informazioni aggiuntive rispetto ai loro predecessori. Tuttavia, OpenAI hanno riferito GPT-5.4, l’attuale fiore all’occhiello, è in realtà peggiore nel trovare il contesto rispetto alla versione precedente GPT-5.2.

Bean afferma che idealmente, i chatbot sanitari dovrebbero essere sottoposti a sperimentazioni controllate con utenti umani prima di essere rilasciati al pubblico, come è stato fatto nel loro studio. Questo può essere un compito arduo, soprattutto considerando la velocità con cui si muove il mondo dell’intelligenza artificiale e quanto tempo possono richiedere gli studi sull’uomo. Lo studio di Bean ha utilizzato GPT-4o, uscito circa un anno fa e ora obsoleto.

All’inizio di questo mese, Google ha pubblicato uno studio che cita gli standard di Bean. Nello studio, i pazienti hanno discusso delle preoccupazioni mediche con Articulate Medical Intelligence Explorer (AMIE) dell’azienda, un chatbot medico LLM che non è ancora disponibile al pubblico, prima di incontrare un medico umano. Nel complesso, le diagnosi dell’AMIE erano accurate quanto quelle dei medici e nessuna delle interazioni ha sollevato grossi problemi di sicurezza per i ricercatori.

Nonostante i risultati incoraggianti, Google non prevede di rilasciare AMIE a breve. “Sebbene la ricerca abbia fatto progressi, ci sono alcune importanti limitazioni che devono essere affrontate prima che i sistemi di diagnosi e trattamento possano essere tradotti nel mondo reale, comprese ulteriori ricerche sull’equità, l’equità e i test di sicurezza,” ha scritto in una email Alan Karthikesalingam, ricercatore presso Google DeepMind. Google ha recentemente rivelato che Health100, una piattaforma sanitaria che sta costruendo in collaborazione con CVS, includerà un assistente AI basato sul suo modello di punta Gemini, anche se probabilmente quel dispositivo non sarà destinato alla diagnosi o al trattamento.

Rodman, che ha condotto lo studio AMIE con Karthikesalingam, non ritiene che studi così completi e pluriennali siano necessariamente l’approccio giusto per chatbot come ChatGPT Health e Copilot Health. “Ci sono diverse ragioni per cui il paradigma della sperimentazione clinica non sempre funziona nell’intelligenza artificiale generativa”, afferma. “Ed è qui che entra in gioco questa conversazione sui benchmark. Esistono benchmark di una terza parte credibile che possiamo concordare siano significativi, e ai quali i laboratori possono attenersi?”

Tali chiavi sono “di terze parti”. Non importa quanto accuratamente le aziende valutino i loro prodotti, è difficile fidarsi completamente dei loro risultati. La valutazione di terzi non solo apporta obiettività, ma aiuta anche a evitare punti ciechi nel caso in cui siano coinvolte più terze parti.

Singhal di OpenAI afferma di essere fortemente a favore della valutazione esterna. “Facciamo del nostro meglio per sostenere la comunità”, afferma. “Parte del motivo per cui abbiamo creato HealthBench è stato proprio quello di dare alla comunità e agli altri sviluppatori di modelli un esempio di come si presenta una valutazione davvero buona.”

Considerando quanto sia costoso produrre valutazioni di alta qualità, dice, dubita che ogni singolo laboratorio accademico sarà in grado di produrre quella che lui chiama “una valutazione per dominarle tutte”. Ma apprezza gli sforzi dei gruppi accademici per riunire valutazioni preesistenti e nuove in suite di valutazione complete, come il framework MedHELM di Stanford, che testa modelli su una varietà di compiti medici. Attualmente, GPT-5 di OpenAI detiene il punteggio MedHELM più alto.

Collegamento alla fonte

Esistono più strumenti sanitari basati sull’intelligenza artificiale che mai, ma quanto funzionano?

Ultimo post

Il tasso di risparmio delle famiglie scenderà al 12% nel 2025...

Novità di iOS 26.5 beta 1: funzionalità, crittografia RCS e altro...

Estende il rally verso 1,3300 sull’USD più debole

Migliaia di persone hanno avvertito di restare in casa in California:...

Filip Hrgovic “garantisce” il combattimento dei pesi massimi se batte Dave...

I lavoratori della TSA della RDU affermano di essere stati costretti...

La resistenza XAG/USD intorno a $ 75,00 sta mettendo alla prova...

Elenco dei negozi chiusi nel mese di aprile

Nuovo piano VAR scioccante della Premier League mentre i fan votano...

Aprile inizia con la speranza per la fine del conflitto in...

Megan lo stallone ricoverato in ospedale nel bel mezzo dello spettacolo:...

Prabowo apprezza la cerimonia di benvenuto alla Blue House: sono onorato

Categoria