Non mancano i benchmark di intelligenza artificiale generativa progettati per misurare le prestazioni e la precisione di un particolare modello nel completare una serie di utili attività aziendali. codifica con istruzioni riportate di seguito con navigazione web dell’agenzia E utilizzo dello strumento. Ma molti di questi parametri hanno un grosso difetto: misurano la capacità dell’intelligenza artificiale di completare problemi e richieste specifici, non come farlo. vero Ciò che conta è l’output del modello: quanto bene produce informazioni oggettivamente accurate basate su dati del mondo reale, soprattutto quando si tratta di informazioni contenute in immagini o grafici.
Mancanza di un metodo di misurazione standardizzato per i settori in cui la precisione è fondamentale (diritto, finanza e medicina) realismo È diventato un punto cieco critico.
Oggi la situazione cambia: il team FACTS di Google e l’unità di data science Kaggle Rilasciato FACTS Benchmark Suite, un quadro di valutazione completo È stato progettato per colmare questa lacuna.
Relativo a documento di ricerca rivela una definizione più sfumata del problema; "realismo" Si articola in due diversi scenari operativi: "realtà contestuale" (risposte di base nei dati forniti) e "verità della conoscenza del mondo" (recuperare informazioni dalla memoria o dal web).
Mentre la novità principale riguarda il layout di fascia alta del Gemini 3 Pro, la storia più profonda per i costruttori riguarda l’intero settore "muro della realtà."
Secondo i risultati iniziali, nessun modello, inclusi Gemini 3 Pro, GPT-5 o Claude 4.5 Opus, ha raggiunto un punteggio di precisione del 70% nei problemi. Per i leader tecnici, questo è un segnale: "fidati ma verifica" Non è ancora finita.
Confronto decostruente
Il pacchetto FACTS va oltre le semplici domande e risposte. Si compone di quattro diversi test, ciascuno dei quali simula una diversa modalità di guasto nel mondo reale che gli sviluppatori riscontrano in produzione:
-
Confronto parametrico (informazioni interne): Il modello è in grado di rispondere con precisione a domande di tipo banale utilizzando solo i dati di addestramento?
-
Confronto di ricerca (utilizzo dello strumento): Il modello può utilizzare efficacemente uno strumento di ricerca web per recuperare e sintetizzare informazioni in tempo reale?
-
Confronto multimodale (Visione): Il modello può interpretare accuratamente grafici, diagrammi e immagini senza avere allucinazioni?
-
Confronto di messa a terra v2 (contesto): Il modello aderisce strettamente al testo originale fornito?
Mentre Google ha reso pubblici 3.513 campioni, Kaggle ne mantiene un set privato per impedire agli sviluppatori di formarsi sui dati dei test. "inquinamento."
Classifica: gioco da un pollice
La prima esecuzione del benchmark pone Gemini 3 Pro in testa con un punteggio FACTS complessivo del 68,8%, seguito da Gemini 2.5 Pro (62,1%) e OpenAI GPT-5 (61,8%). Ma uno sguardo più attento ai dati rivela dove si trovano i veri campi di battaglia per i team di ingegneri.
|
Modello |
Punteggio FATTI (medio) |
Cerca (funzione RAG) |
Multimodale (Visione) |
|
Gemelli 3 Pro |
68.8 |
83,8 |
46.1 |
|
Gemelli 2.5 Pro |
62.1 |
63.9 |
46.9 |
|
GPT-5 |
61.8 |
77,7 |
44.1 |
|
Grok 4 |
53.6 |
75.3 |
25.7 |
|
4.5 Chiudi corsa |
51.3 |
73.2 |
39.2 |
Dati presi dalle note di rilascio del FACTS Team.
Per i costruttori: "Per chiamare" ecc. "parametrico" Apertura
Per gli sviluppatori che creano sistemi RAG (Retrieval-Augmented Manufacturing), Search Benchmark è la metrica più critica.
I dati mostrano una grande discrepanza tra le capacità di un modello. "Sapere" cose (parametriche) e abilità "trovare" cose (Cerca). Ad esempio, il Gemini 3 Pro ottiene un punteggio elevato dell’83,8% nelle attività di ricerca, ma solo del 76,4% nelle attività parametriche.
Ciò conferma l’attuale standard dell’architettura aziendale: non fare affidamento sulla memoria interna del modello per i fatti critici.
Se stai creando un bot della conoscenza interno, i risultati di FACTS mostrano che connettere il tuo modello a uno strumento di ricerca o a un database vettoriale non è facoltativo: è l’unico modo per spingere la precisione verso livelli di throughput accettabili.
Avviso multimodale
Il punto dati più preoccupante per i product manager è la prestazione nelle attività multimodali. I punteggi qui sono universalmente bassi. Anche il leader della categoria Gemini 2.5 Pro ha raggiunto solo il 46,9% di precisione.
Le attività di confronto includevano la lettura di grafici, l’interpretazione di diagrammi e l’identificazione di oggetti in natura. Con una precisione complessiva inferiore al 50%, ciò suggerisce che l’intelligenza artificiale multimodale non è ancora pronta per estrarre dati senza supervisione.
Insomma: Se la roadmap del tuo prodotto prevede che un’intelligenza artificiale estragga automaticamente i dati dalle fatture o interpreti i rendiconti finanziari senza revisione umana nel ciclo. probabilmente stai causando tassi di errore significativi alla tua pipeline.
Perché questo è importante per il tuo stack?
FATTI Il confronto diventerà probabilmente un punto di riferimento standard per l’acquisto. Quando valutano i modelli per uso aziendale, i leader tecnici dovrebbero guardare oltre il punteggio composito e approfondire i sottocriteri specifici che corrispondono ai loro casi d’uso:
-
Creerai un bot di assistenza clienti? Controlla il punteggio Foundation per assicurarti che il bot aderisca ai tuoi documenti politici. (Il Gemini 2.5 Pro in realtà batte il Gemini 3 Pro qui, 74,2 contro 69,0).
-
Stai formando assistenti di ricerca? Dai priorità ai punteggi di ricerca.
-
Creare uno strumento di analisi delle immagini? Procedere con estrema cautela.
Come ha notato il team FACTS nella loro pubblicazione, "Tutti i modelli valutati hanno raggiunto una precisione complessiva inferiore al 70%, lasciando un divario significativo per i progressi futuri."Per ora, il messaggio al settore è chiaro: i modelli stanno diventando più intelligenti, ma non sono ancora infallibili. Progetta i tuoi sistemi partendo dal presupposto che circa un terzo delle volte il modello grezzo potrebbe essere sbagliato.















