Solo poche settimane fa Google Gemelli 3 Il modello rivendica posizioni di leadership in molteplici benchmark di intelligenza artificiale. Ma tLa sfida con i benchmark forniti dal fornitore è che sono forniti dal fornitore stesso.

Una nuova valutazione indipendente dal fornitore Produttivoma mette Gemini 3 in cima alla classifica. Ciò non si basa su una serie di criteri accademici; Si tratta piuttosto di una serie di funzionalità del mondo reale a cui tengono gli utenti e le organizzazioni reali.

Prolific è stata fondata da ricercatori dell’Università di Oxford. L’azienda fornisce dati umani affidabili e di alta qualità per supportare la ricerca rigorosa e lo sviluppo etico dell’IA. Quella dell’azienda”Confronto UMANO” applica questo approccio utilizzando campioni umani rappresentativi e test ciechi per confrontare rigorosamente i modelli di intelligenza artificiale in una varietà di scenari utente, misurando non solo le prestazioni tecniche ma anche la fiducia degli utenti, l’adattabilità e lo stile di comunicazione.

Gli ultimi test Humane hanno valutato 26.000 utenti in un test alla cieca dei modelli. Nella valutazione, il punteggio di fiducia di Gemini 3 Pro è aumentato dal 16% al 69%, il livello più alto mai registrato da Prolific. Gemini 3 ora è al primo posto per fiducia, etica e sicurezza nei sottogruppi demografici con il 69% complessivo, mentre il precedente Gemini 2.5 Pro si classificava al primo posto con solo il 16%.

Nel complesso, Gemini 3 si è classificato primo in tre delle quattro categorie di valutazione: prestazioni e giudizio, interazione e adattabilità, fiducia e sicurezza. Ha perso in termini di stile di comunicazione, dove DeepSeek V3 si è classificato al primo posto nelle preferenze con il 43%. I test umanitari hanno anche dimostrato che Gemini 3 ha funzionato costantemente bene in 22 diversi gruppi demografici di utenti, comprese le differenze di età, sesso, etnia e orientamento politico. La valutazione ha anche rivelato che ora gli utenti hanno cinque volte più probabilità di scegliere il modello nei confronti ciechi testa a testa.

Ma la classifica è meno importante di così Da dove vinto.

"È coerenza in un’ampia gamma di casi d’uso diversi e una personalità e uno stile che si rivolgono a un’ampia gamma di diversi tipi di utenti." Phelim Bradley, co-fondatore e CEO di Prolific, ha dichiarato a VentureBeat: "Sebbene in alcuni casi specifici altri modelli possano essere preferiti da piccoli sottogruppi o da un particolare tipo di conversazione, è l’ampiezza delle informazioni e la flessibilità del modello in diversi casi d’uso e tipi di pubblico che gli consentono di guadagnare questo particolare criterio."

In che modo i test ciechi rivelano ciò che sfugge ai criteri accademici?

La metodologia di HUMAINE rivela lacune nel modo in cui l’industria valuta i modelli. Gli utenti interagiscono con due modelli contemporaneamente in conversazioni a più round. Non sanno quali fornitori alimentano ciascuna risposta. Discutono di questioni che sono importanti per loro, non di domande di test predeterminate.

questo tL’importante è che prenda se stesso come esempio. HUMAINE utilizza un campione rappresentativo della popolazione degli Stati Uniti e del Regno Unito, controllando età, sesso, etnia e orientamento politico. Ciò rivela qualcosa che i benchmark statici non riescono a catturare: le prestazioni del modello variano in base al pubblico di destinazione.

"Se prendi la classifica dell’IA, la maggior parte di esse potrebbe ancora avere un elenco abbastanza statico." Bradley ha detto. "Ma per noi, se controlli il pubblico, se guardi a un campione di sinistra, a un campione di destra, agli Stati Uniti, al Regno Unito, ci ritroveremo con una classifica leggermente diversa. E penso che l’età sia stata in realtà la condizione più diversa notata nel nostro esperimento."

Questo è importante per le organizzazioni che implementano l’intelligenza artificiale tra diverse popolazioni di dipendenti. Un modello che funziona bene per un gruppo demografico può sottoperformare per un altro.

La metodologia affronta anche una questione fondamentale nella valutazione dell’IA: perché utilizzare giudici umani quando l’IA può valutare se stessa? Bradley ha sottolineato che la sua azienda utilizza esperti di intelligenza artificiale per determinati casi d’uso, ma che la valutazione umana è ancora il fattore critico.

"Vediamo che il vantaggio più grande deriva da un’organizzazione intelligente dei dati sia dei laureati che delle persone; Entrambi hanno i loro punti di forza e di debolezza e funzionano meglio insieme se combinati in modo intelligente." disse Bradley. "Ma continuiamo a pensare che l’alfa siano dati umani. Siamo ancora molto convinti che i dati umani e l’intelligenza umana debbano essere integrati."

Cosa significa fiducia nella valutazione dell’IA?

Fiducia, etica e sicurezza misurano la fiducia degli utenti nell’affidabilità, nell’accuratezza dei fatti e nel comportamento responsabile. Nella metodologia HUMAINE, la fiducia non è una pretesa del fornitore o una metrica tecnica; è ciò che segnalano gli utenti dopo le chiamate alla cieca con modelli concorrenti.

La cifra del 69% rappresenta la probabilità tra i gruppi demografici. Questa coerenza è più importante dei punteggi totali perché le organizzazioni possono servire popolazioni diverse.

"Non c’era consapevolezza che stessero usando Gemini in questo scenario," Bradley ha detto. "Si basava esclusivamente sulla risposta cieca multi-spin."

Ciò distingue la fiducia percepita dalla fiducia guadagnata. Gli utenti valutavano i risultati dei modelli senza sapere quale fornitore li aveva prodotti, eliminando il vantaggio del marchio di Google. Questa distinzione è importante per le implementazioni rivolte al cliente, in cui il fornitore di intelligenza artificiale rimane invisibile agli utenti finali.

Cosa devono fare le aziende adesso

Una delle cose fondamentali che le aziende devono fare ora quando valutano diversi modelli è adottare un quadro di valutazione che funzioni.

"Sta diventando sempre più difficile valutare modelli basati solo sulle vibrazioni," Bradley ha detto. "Penso che abbiamo bisogno di approcci scientifici sempre più rigorosi per comprendere veramente come funzionano questi modelli."

I dati HUMAINE forniscono un quadro di riferimento: testare la coerenza tra casi d’uso e dati demografici degli utenti, non solo le massime prestazioni su attività specifiche. Test cieco per separare la qualità del modello dalla percezione del marchio. Utilizza campioni rappresentativi che corrispondano alla tua popolazione di utenti effettiva. Pianificare una valutazione continua man mano che i modelli cambiano.

Per le organizzazioni che desiderano implementare l’intelligenza artificiale su larga scala, ciò significa andare oltre "Quale modello è il migliore?" con "Quale modello è il migliore per il nostro caso d’uso specifico, i dati demografici degli utenti e le funzionalità richieste."

Il rigore del campionamento rappresentativo e dei test in cieco fornisce i dati per effettuare questa determinazione; qualcosa che i parametri di riferimento tecnici e la valutazione basata sulle vibrazioni non possono fornire.

Collegamento alla fonte