Home Politica Massima di verità del 70%: perché il nuovo benchmark “FACTS” di Google...

Politica

Massima di verità del 70%: perché il nuovo benchmark “FACTS” di Google è un campanello d’allarme per l’intelligenza artificiale aziendale

10 Dicembre 2025

Non mancano i benchmark di intelligenza artificiale generativa progettati per misurare le prestazioni e la precisione di un particolare modello nel completare una serie di utili attività aziendali. codifica con istruzioni riportate di seguito con navigazione web dell’agenzia E utilizzo dello strumento. Ma molti di questi parametri hanno un grosso difetto: misurano la capacità dell’intelligenza artificiale di completare problemi e richieste specifici, non come farlo. vero Ciò che conta è l’output del modello: quanto bene produce informazioni oggettivamente accurate basate su dati del mondo reale, soprattutto quando si tratta di informazioni contenute in immagini o grafici.

Mancanza di un metodo di misurazione standardizzato per i settori in cui la precisione è fondamentale (diritto, finanza e medicina) realismo È diventato un punto cieco critico.

Oggi la situazione cambia: il team FACTS di Google e l’unità di data science Kaggle Rilasciato FACTS Benchmark Suite, un quadro di valutazione completo È stato progettato per colmare questa lacuna.

Relativo a documento di ricerca rivela una definizione più sfumata del problema; "realismo" Si articola in due diversi scenari operativi: "realtà contestuale" (risposte di base nei dati forniti) e "verità della conoscenza del mondo" (recuperare informazioni dalla memoria o dal web).

Mentre la novità principale riguarda il layout di fascia alta del Gemini 3 Pro, la storia più profonda per i costruttori riguarda l’intero settore "muro della realtà."

Secondo i risultati iniziali, nessun modello, inclusi Gemini 3 Pro, GPT-5 o Claude 4.5 Opus, ha raggiunto un punteggio di precisione del 70% nei problemi. Per i leader tecnici, questo è un segnale: "fidati ma verifica" Non è ancora finita.

Confronto decostruente

Il pacchetto FACTS va oltre le semplici domande e risposte. Si compone di quattro diversi test, ciascuno dei quali simula una diversa modalità di guasto nel mondo reale che gli sviluppatori riscontrano in produzione:

Confronto parametrico (informazioni interne): Il modello è in grado di rispondere con precisione a domande di tipo banale utilizzando solo i dati di addestramento?
Confronto di ricerca (utilizzo dello strumento): Il modello può utilizzare efficacemente uno strumento di ricerca web per recuperare e sintetizzare informazioni in tempo reale?
Confronto multimodale (Visione): Il modello può interpretare accuratamente grafici, diagrammi e immagini senza avere allucinazioni?
Confronto di messa a terra v2 (contesto): Il modello aderisce strettamente al testo originale fornito?

Mentre Google ha reso pubblici 3.513 campioni, Kaggle ne mantiene un set privato per impedire agli sviluppatori di formarsi sui dati dei test. "inquinamento."

Classifica: gioco da un pollice

La prima esecuzione del benchmark pone Gemini 3 Pro in testa con un punteggio FACTS complessivo del 68,8%, seguito da Gemini 2.5 Pro (62,1%) e OpenAI GPT-5 (61,8%). Ma uno sguardo più attento ai dati rivela dove si trovano i veri campi di battaglia per i team di ingegneri.

Modello	Punteggio FATTI (medio)	Cerca (funzione RAG)	Multimodale (Visione)
Gemelli 3 Pro	68.8	83,8	46.1
Gemelli 2.5 Pro	62.1	63.9	46.9
GPT-5	61.8	77,7	44.1
Grok 4	53.6	75.3	25.7
4.5 Chiudi corsa	51.3	73.2	39.2

Dati presi dalle note di rilascio del FACTS Team.

Per i costruttori: "Per chiamare" ecc. "parametrico" Apertura

Per gli sviluppatori che creano sistemi RAG (Retrieval-Augmented Manufacturing), Search Benchmark è la metrica più critica.

I dati mostrano una grande discrepanza tra le capacità di un modello. "Sapere" cose (parametriche) e abilità "trovare" cose (Cerca). Ad esempio, il Gemini 3 Pro ottiene un punteggio elevato dell’83,8% nelle attività di ricerca, ma solo del 76,4% nelle attività parametriche.

Ciò conferma l’attuale standard dell’architettura aziendale: non fare affidamento sulla memoria interna del modello per i fatti critici.

Se stai creando un bot della conoscenza interno, i risultati di FACTS mostrano che connettere il tuo modello a uno strumento di ricerca o a un database vettoriale non è facoltativo: è l’unico modo per spingere la precisione verso livelli di throughput accettabili.

Avviso multimodale

Il punto dati più preoccupante per i product manager è la prestazione nelle attività multimodali. I punteggi qui sono universalmente bassi. Anche il leader della categoria Gemini 2.5 Pro ha raggiunto solo il 46,9% di precisione.

Le attività di confronto includevano la lettura di grafici, l’interpretazione di diagrammi e l’identificazione di oggetti in natura. Con una precisione complessiva inferiore al 50%, ciò suggerisce che l’intelligenza artificiale multimodale non è ancora pronta per estrarre dati senza supervisione.

Insomma: Se la roadmap del tuo prodotto prevede che un’intelligenza artificiale estragga automaticamente i dati dalle fatture o interpreti i rendiconti finanziari senza revisione umana nel ciclo. probabilmente stai causando tassi di errore significativi alla tua pipeline.

Perché questo è importante per il tuo stack?

FATTI Il confronto diventerà probabilmente un punto di riferimento standard per l’acquisto. Quando valutano i modelli per uso aziendale, i leader tecnici dovrebbero guardare oltre il punteggio composito e approfondire i sottocriteri specifici che corrispondono ai loro casi d’uso:

Creerai un bot di assistenza clienti? Controlla il punteggio Foundation per assicurarti che il bot aderisca ai tuoi documenti politici. (Il Gemini 2.5 Pro in realtà batte il Gemini 3 Pro qui, 74,2 contro 69,0).
Stai formando assistenti di ricerca? Dai priorità ai punteggi di ricerca.
Creare uno strumento di analisi delle immagini? Procedere con estrema cautela.

Come ha notato il team FACTS nella loro pubblicazione, "Tutti i modelli valutati hanno raggiunto una precisione complessiva inferiore al 70%, lasciando un divario significativo per i progressi futuri."Per ora, il messaggio al settore è chiaro: i modelli stanno diventando più intelligenti, ma non sono ancora infallibili. Progetta i tuoi sistemi partendo dal presupposto che circa un terzo delle volte il modello grezzo potrebbe essere sbagliato.

Collegamento alla fonte

Massima di verità del 70%: perché il nuovo benchmark “FACTS” di Google è un campanello d’allarme per l’intelligenza artificiale aziendale

Confronto decostruente

Classifica: gioco da un pollice

Per i costruttori: "Per chiamare" ecc. "parametrico" Apertura

Avviso multimodale

Perché questo è importante per il tuo stack?

Ultimo post

Trump Turnberry è morto in 28 Open

I prezzi dell’argento scendono mentre i mercati tengono d’occhio la riunione...

Agente NICE: Donald Trump sostiene la ridenominazione della chiave agenzia governativa

I futures del Dow Jones scivolano mentre le tensioni in Iran...

Il produttore del gateway alla fine ha riconosciuto il problema, omettendo...

Le vendite di Resident Evil Requiem spingono Capcom ad aumentare le...

Solheim Cup – Colonna del Capitano di Anna Nordqvist: abiti per...

Il passo mancante tra promozione e profitto

Il cambio USD/JPY si indebolisce mentre lo yen si rafforza in...

Levitt ha informato i giornalisti dopo la cena di caccia

Il cambio USD/CAD scende ai minimi di sei settimane mentre il...

Allarme di emergenza dopo che Kansas City ha visto un mese...

Categoria