Gemini 3 è l’ultimo modello di intelligenza artificiale di Google
VCG tramite Getty Images
Secondo l’azienda, l’ultimo chatbot di Google, Gemini 3, ha fatto significativi passi avanti sui benchmark progettati per misurare i progressi dell’intelligenza artificiale. Questi risultati potrebbero essere sufficienti per dissipare i timori di uno scoppio della bolla dell’intelligenza artificiale per ora, ma non è chiaro quanto bene questi punteggi si traducano in capacità nel mondo reale.
Inoltre, le persistenti inesattezze e errori fattuali che sono diventati il segno distintivo di tutti i grandi modelli linguistici non mostrano segni di abbandono, il che potrebbe rivelarsi problematico per qualsiasi uso in cui l’affidabilità è importante.
in un post sul blog Annunciando il nuovo modello, i capi di Google Sundar Pichai, Demis Hassabis e Koray Kavcuoglu hanno scritto che Gemini 3 ha una “logica a livello di dottorato”, una frase usata anche dal concorrente OpenAI quando ha annunciato il suo modello GPT-5. A riprova di ciò, elencano i punteggi di diversi test progettati per testare la conoscenza di “livello universitario”, come l’Umanities Last Exam, una serie di 2500 domande a livello di ricerca di matematica, scienze e discipline umanistiche. Gemini 3 ha ottenuto il 37,5% in questo test, battendo il precedente detentore del record, la versione GPT-5 di OpenAI, che ha ottenuto il 26,5%.
Un salto del genere potrebbe indicare, ad esempio, che un modello è diventato più capace sotto alcuni aspetti Luca Rocher all’Università di Oxford, ma dobbiamo stare attenti a come interpretiamo questi risultati. “Se un modello passa dall’80% al 90% rispetto al benchmark, cosa significa? Vuol dire che un modello era all’80% di livello PhD e ora è al 90% di livello PhD? Penso che sia abbastanza difficile da capire”, dice. “Non ci sono numeri che possiamo fornire per dire se un modello di intelligenza artificiale abbia una logica o meno, perché è un concetto molto soggettivo.”
I test di benchmark presentano diverse limitazioni, come la richiesta di risposte singole o risposte a scelta multipla, che non richiedono che i modelli mostrino le loro prestazioni. Rocher afferma: “È molto semplice utilizzare domande a scelta multipla per valutare (modelli), ma se vai da un medico, il medico non ti fornirà una valutazione a scelta multipla. Se chiedi a un avvocato, l’avvocato non ti fornirà consulenza legale con risposte a scelta multipla.” Esiste anche il rischio che le risposte a tali test siano nascoste nei dati di addestramento dei modelli di intelligenza artificiale testati, dando loro di fatto la possibilità di imbrogliare.
Il vero test per Gemini 3 e i modelli di intelligenza artificiale più avanzati – e se le loro prestazioni saranno sufficienti a giustificare i trilioni di dollari che aziende come Google e OpenAI stanno spendendo per i data center di intelligenza artificiale – secondo Rocher sarà il modo in cui le persone utilizzeranno i modelli e quanto li troveranno affidabili.
Google afferma che le capacità migliorate del modello lo renderanno migliore nella creazione di software, nell’organizzazione della posta elettronica e nell’analisi dei documenti. L’azienda afferma inoltre che migliorerà la Ricerca Google integrando i risultati generati dall’intelligenza artificiale con grafici e simulazioni.
Le risposte iniziali online includono la gente loda Le capacità di codifica e la capacità di ragionare di Gemini, ma come per tutti i nuovi modelli, ci sono stati anche post che evidenziano chiaramente i fallimenti nell’esecuzione di compiti semplici, come Tracciatura fatta a mano Frecce che puntano a persone diverse o semplici logica visiva test.
Nelle specifiche tecniche di Gemini 3, Google riconosce che il modello continuerà a generare confusione e inesattezze fattuali per qualche tempo, il che è più o meno paragonabile ad altri principali modelli di intelligenza artificiale. Dice che la mancanza di miglioramenti in questo settore è una delle maggiori preoccupazioni Arturo d’Avila Garcés Alla City St George’s, Università di Londra. “Il problema è che tutte le società di intelligenza artificiale cercano di ridurre le allucinazioni da oltre due anni, ma basta una sola allucinazione molto brutta per distruggere per sempre la fiducia nel sistema”, dice.
Soggetto:















