Singhal, il capo sanitario di OpenAI, afferma che la serie di modelli GPT-5 esistente dell’azienda, che non era ancora stata rilasciata quando è stato condotto lo studio originale HealthBench, svolgono un lavoro migliore nel ottenere informazioni aggiuntive rispetto ai loro predecessori. Tuttavia, OpenAI hanno riferito GPT-5.4, l’attuale fiore all’occhiello, è in realtà peggiore nel trovare il contesto rispetto alla versione precedente GPT-5.2.
Bean afferma che idealmente, i chatbot sanitari dovrebbero essere sottoposti a sperimentazioni controllate con utenti umani prima di essere rilasciati al pubblico, come è stato fatto nel loro studio. Questo può essere un compito arduo, soprattutto considerando la velocità con cui si muove il mondo dell’intelligenza artificiale e quanto tempo possono richiedere gli studi sull’uomo. Lo studio di Bean ha utilizzato GPT-4o, uscito circa un anno fa e ora obsoleto.
All’inizio di questo mese, Google ha pubblicato uno studio che cita gli standard di Bean. Nello studio, i pazienti hanno discusso delle preoccupazioni mediche con Articulate Medical Intelligence Explorer (AMIE) dell’azienda, un chatbot medico LLM che non è ancora disponibile al pubblico, prima di incontrare un medico umano. Nel complesso, le diagnosi dell’AMIE erano accurate quanto quelle dei medici e nessuna delle interazioni ha sollevato grossi problemi di sicurezza per i ricercatori.
Nonostante i risultati incoraggianti, Google non prevede di rilasciare AMIE a breve. “Sebbene la ricerca abbia fatto progressi, ci sono alcune importanti limitazioni che devono essere affrontate prima che i sistemi di diagnosi e trattamento possano essere tradotti nel mondo reale, comprese ulteriori ricerche sull’equità, l’equità e i test di sicurezza,” ha scritto in una email Alan Karthikesalingam, ricercatore presso Google DeepMind. Google ha recentemente rivelato che Health100, una piattaforma sanitaria che sta costruendo in collaborazione con CVS, includerà un assistente AI basato sul suo modello di punta Gemini, anche se probabilmente quel dispositivo non sarà destinato alla diagnosi o al trattamento.
Rodman, che ha condotto lo studio AMIE con Karthikesalingam, non ritiene che studi così completi e pluriennali siano necessariamente l’approccio giusto per chatbot come ChatGPT Health e Copilot Health. “Ci sono diverse ragioni per cui il paradigma della sperimentazione clinica non sempre funziona nell’intelligenza artificiale generativa”, afferma. “Ed è qui che entra in gioco questa conversazione sui benchmark. Esistono benchmark di una terza parte credibile che possiamo concordare siano significativi, e ai quali i laboratori possono attenersi?”
Tali chiavi sono “di terze parti”. Non importa quanto accuratamente le aziende valutino i loro prodotti, è difficile fidarsi completamente dei loro risultati. La valutazione di terzi non solo apporta obiettività, ma aiuta anche a evitare punti ciechi nel caso in cui siano coinvolte più terze parti.
Singhal di OpenAI afferma di essere fortemente a favore della valutazione esterna. “Facciamo del nostro meglio per sostenere la comunità”, afferma. “Parte del motivo per cui abbiamo creato HealthBench è stato proprio quello di dare alla comunità e agli altri sviluppatori di modelli un esempio di come si presenta una valutazione davvero buona.”
Considerando quanto sia costoso produrre valutazioni di alta qualità, dice, dubita che ogni singolo laboratorio accademico sarà in grado di produrre quella che lui chiama “una valutazione per dominarle tutte”. Ma apprezza gli sforzi dei gruppi accademici per riunire valutazioni preesistenti e nuove in suite di valutazione complete, come il framework MedHELM di Stanford, che testa modelli su una varietà di compiti medici. Attualmente, GPT-5 di OpenAI detiene il punteggio MedHELM più alto.













