I laboratori scientifici possono essere luoghi pericolosi
PeopleImages/Shutterstock
I ricercatori hanno avvertito che l’uso di modelli di intelligenza artificiale nei laboratori scientifici rischia di portare a esperimenti pericolosi che potrebbero provocare incendi o esplosioni. Tali modelli offrono una solida illusione di comprensione, ma sono vulnerabili all’assenza di precauzioni di sicurezza fondamentali e fondamentali. Nei test su 19 modelli di intelligenza artificiale all’avanguardia, ognuno ha commesso errori potenzialmente fatali.
Gli incidenti gravi nei laboratori universitari sono rari ma certamente non inauditi. 1997, chimico Karen Wetterhan è stato ucciso dal dimetilmercurio filtrato attraverso i suoi guanti protettivi; Un’esplosione nel 2016 È costato il braccio a un ricercatore.; ed era uno scienziato nel 2014 parzialmente cieco.
Ora, i modelli di intelligenza artificiale vengono messi in servizio in una varietà di industrie e settori, compresi i laboratori di ricerca, dove possono essere utilizzati per progettare esperimenti e processi. I modelli di intelligenza artificiale progettati per compiti specifici sono stati utilizzati con successo in molti campi scientifici come la biologia, la meteorologia e la matematica. Ma i grandi modelli generici tendono a creare cose e a rispondere a domande, anche quando non hanno accesso ai dati necessari per fornire la risposta giusta. Questo può essere fastidioso quando si ricercano luoghi di vacanza o ricette, ma può essere potenzialmente mortale quando si progetta un esperimento di chimica.
Per esaminare i rischi, xiangliang zhang Lui e i suoi colleghi dell’Università di Notre Dame in Indiana hanno creato un test chiamato LabSafety Bench in grado di misurare se un modello di intelligenza artificiale identifica potenziali minacce ed esiti dannosi. Contiene 765 domande a scelta multipla e 404 scenari di laboratorio illustrati che possono comportare problemi di sicurezza.
Nei test a scelta multipla, alcuni modelli di intelligenza artificiale, come Vicuna, hanno ottenuto punteggi quasi bassi come si potrebbe vedere con ipotesi casuali, mentre GPT-4O ha raggiunto una precisione dell’86,55% e DeepSeek-R1 ha raggiunto una precisione dell’84,49%. Quando testati con immagini, alcuni modelli, come InstructBlip-7B, hanno raggiunto una precisione inferiore al 30%. Il team ha testato 19 modelli di linguaggio di grandi dimensioni (LLM) e modelli di linguaggio visivo all’avanguardia su un banco LabSafety e ha scoperto che nessuno ha raggiunto una precisione complessiva migliore del 70%.
Zhang è ottimista riguardo al futuro dell’intelligenza artificiale nella scienza, anche nei cosiddetti laboratori a guida autonoma dove i robot lavorano da soli, ma afferma che i modelli non sono ancora pronti per progettare esperimenti. “Ora? In un laboratorio? Non credo. Spesso venivano addestrati per compiti generici: riscrivere un’e-mail, rifinire un foglio o riassumere un documento. Fanno molto bene per questo tipo di compiti. (Ma) non hanno la conoscenza approfondita di queste minacce (di laboratorio).”
Un portavoce di OpenAI afferma: “Accogliamo con favore la ricerca che aiuta a rendere l’IA sicura e affidabile nella scienza, soprattutto in ambienti di laboratorio ad alto rischio”. Ha detto che i ricercatori non hanno testato il suo modello principale. “GPT-5.2 è il nostro modello scientifico più potente fino ad oggi, con ragionamento, pianificazione e rilevamento degli errori significativamente più forti rispetto ai modelli discussi in questo documento per supportare meglio i ricercatori. È progettato per accelerare il lavoro scientifico mentre gli esseri umani e i sistemi di sicurezza esistenti sono responsabili delle decisioni critiche per la sicurezza.”
Google, DeepSeek, Meta, Mistral e Anthropic non hanno risposto alle richieste di commento.
Alan Tucker La Brunel University di Londra afferma che i modelli di intelligenza artificiale possono avere un valore inestimabile nell’assistere gli esseri umani nella progettazione di nuovi esperimenti, ma ci sono dei rischi e gli esseri umani devono rimanere coinvolti. “Il comportamento di questi[LLM]non è certamente ben compreso in alcun senso scientifico specifico”, afferma. “Penso che la nuova classe di LLM che imitano il linguaggio – e non molto altro – vengano chiaramente utilizzati in contesti inappropriati perché le persone fanno troppo affidamento su di loro. Ci sono già prove che gli esseri umani stanno iniziando a sentirsi a proprio agio e a staccarsi, lasciando che sia l’intelligenza artificiale a fare il duro lavoro ma senza controlli adeguati.”
Craig Merlick L’Università della California, a Los Angeles, afferma di aver eseguito un semplice test negli ultimi anni, chiedendo a un modello di intelligenza artificiale cosa fare se si versa acido solforico addosso. La risposta corretta è risciacquare con acqua, ma Merlik afferma di aver scoperto che l’intelligenza artificiale mette sempre in guardia contro questo, adottando erroneamente consigli non provati di non aggiungere acqua all’acido negli esperimenti a causa dell’aumento del calore. Tuttavia, dice, negli ultimi mesi i modelli hanno iniziato a dare la risposta giusta.
Merlik afferma che è importante stabilire buone pratiche di sicurezza nelle università poiché c’è un afflusso di nuovi studenti con meno esperienza. Ma è meno pessimista rispetto ad altri ricercatori riguardo al ruolo dell’intelligenza artificiale nella progettazione degli esperimenti.
“È peggio degli umani? Una cosa è criticare tutti questi grandi modelli linguistici, ma non li hanno testati su un gruppo rappresentativo di umani”, dice Merlik. “Ci sono esseri umani che sono molto attenti e ci sono esseri umani che non lo sono. È possibile che i modelli linguistici di grandi dimensioni siano migliori di una piccola percentuale di studenti universitari alle prime armi, o anche di ricercatori esperti. Un altro fattore è che i modelli linguistici di grandi dimensioni stanno migliorando ogni mese, quindi i numeri in questo articolo saranno probabilmente completamente invalidati nei prossimi sei mesi.”
Soggetto:















