Oggi sul mercato non mancano i benchmark IA, con opzioni popolari disponibili come: L’ultima prova dell’umanità (HLE), ARC-AGI-2 e GDPval et al.

Gli agenti di intelligenza artificiale sono bravi a risolvere problemi di matematica astratta e a superare gli esami di dottorato su cui si basa la maggior parte delle valutazioni, ma Databricks ha una domanda per l’azienda: sono davvero in grado di gestire il lavoro ad alta intensità di documenti di cui la maggior parte delle organizzazioni ha bisogno?

Secondo una nuova ricerca della società di piattaforme di dati e intelligenza artificiale, la risposta è seria. Anche gli agenti IA più performanti raggiungono una precisione inferiore al 45% su attività che riflettono i reali carichi di lavoro aziendali, rivelando il divario critico tra i benchmark accademici e la realtà aziendale.

"Se concentriamo i nostri sforzi di ricerca sul miglioramento (rispetto ai benchmark esistenti), probabilmente non risolveremo i problemi giusti per rendere Databricks una piattaforma migliore." Erich Elsen, capo ricercatore presso Databricks, ha spiegato a VentureBeat. "Quindi ci stavamo guardando intorno. Come possiamo creare una credenziale che dimostri che se miglioriamo in questo, miglioreremo anche nel risolvere i problemi dei nostri clienti?"

Il risultato è OfficeQA, un benchmark progettato per testare gli agenti di intelligenza artificiale su ragionamenti fondati: rispondere a domande basate su set di dati proprietari complessi che includono documenti non strutturati e dati tabulari. A differenza dei benchmark esistenti che si concentrano sulle capacità immateriali, OfficeQA sono proxy dei compiti economicamente preziosi che le aziende effettivamente svolgono.

Perché i benchmark accademici non raggiungono il traguardo istituzionale?

Dal punto di vista aziendale, secondo Elsen, i benchmark più diffusi sull’intelligenza artificiale presentano numerose carenze.

L’HLE contiene domande che richiedono competenze di livello di dottorato in una varietà di campi. ARC-AGI valuta il ragionamento astratto attraverso la manipolazione visiva di griglie colorate. Entrambi ampliano i confini delle capacità dell’intelligenza artificiale, ma non riflettono il lavoro aziendale quotidiano. Anche GDPval, creato appositamente per valutare compiti economicamente utili, manca il bersaglio.

"Veniamo da un background scientifico o ingegneristico piuttosto intenso e talvolta creiamo recensioni che lo riflettono." Elsen ha detto. " Quindi questi sono estremamente ad alta intensità di matematica, il che è un compito utile e grandioso, ma spingere i confini della matematica umana non è ciò che i clienti stanno cercando di fare con Databricks."

Sebbene l’intelligenza artificiale sia comunemente utilizzata per l’assistenza clienti e le applicazioni di codifica, la base clienti di Databricks ha una gamma più ampia di esigenze. Rispondere a domande su documenti o corpi di documenti è un dovere istituzionale comune, ha affermato Elsen. Ciò richiede l’analisi di tabelle complesse con intestazioni nidificate, l’estrazione di informazioni da dozzine o centinaia di documenti e l’esecuzione di calcoli in cui un errore di una sola cifra può portare le organizzazioni a prendere decisioni aziendali sbagliate.

Crea un punto di riferimento che rifletta la complessità dei documenti aziendali

Per creare un test significativo delle capacità di ragionamento fondate, Databricks aveva bisogno di un set di dati che si avvicinasse alla complessa realtà dei corpora di documenti aziendali proprietari pur rimanendo liberamente disponibile per la ricerca. Il team ha avuto accesso ai bollettini del Tesoro degli Stati Uniti, che sono stati pubblicati mensilmente per cinquant’anni a partire dal 1939 e successivamente trimestralmente.

I bollettini del Tesoro spuntano ogni casella relativa alla complessità dei documenti aziendali. Ogni pubblicazione è composta da 100 a 200 pagine ed è composta da prosa, tabelle complesse, grafici e cifre che descrivono le operazioni del Tesoro: da dove proviene il denaro federale, dove è andato e come ha finanziato le operazioni governative. Il corpus copre circa 89.000 pagine in ottant’anni. Fino al 1996, le newsletter consistevano in scansioni di documenti fisici; sono stati poi convertiti in PDF generati digitalmente. USAFatti, missione "Per facilitare l’accesso e la comprensione dei dati governativi," Ha collaborato con Databricks per sviluppare criteri, identificare i bollettini del Tesoro come ideali e garantire che le domande riflettano casi d’uso realistici.

Le domande 246 richiedono agli agenti di affrontare sfide complesse legate ai documenti del mondo reale: immagini scansionate, strutture tabulari gerarchiche, dati temporali che si estendono su più report e la necessità di informazioni esterne come gli aggiustamenti dell’inflazione. Le domande spaziano da semplici ricerche di valori ad analisi in più fasi che richiedono calcoli statistici e confronti tra anni.

Per garantire che il benchmarking richiedesse un vero accesso basato su documenti, Databricks ha filtrato le domande a cui gli LLM potevano rispondere solo utilizzando informazioni parametriche o ricerca sul web. Ciò ha eliminato le domande più semplici in cui i modelli si basavano su documenti finanziari passati memorizzati prima della formazione, nonché alcune domande sorprendentemente complesse.

Ogni domanda ha una risposta verificata (di solito un numero, a volte date o piccoli elenchi), consentendo una valutazione automatica senza giudizio umano. Questa scelta progettuale è importante: consente approcci di apprendimento per rinforzo (RL) che richiedono ricompense verificabili, simili ai modelli di formazione sui problemi di codifica.

La performance attuale rivela importanti lacune

Databricks ha testato l’agente Claude Opus 4.5 (usando l’SDK di Claude) e l’agente GPT-5.1 (usando l’API di ricerca file di OpenAI). I risultati faranno riflettere qualsiasi azienda che investe molto nel talento degli agenti esistenti.

Quando vengono forniti documenti PDF grezzi:

  • L’agente Claude Opus 4.5 (pensiero predefinito=alto) ha raggiunto una precisione del 37,4%.

  • L’agente GPT-5.1 (con Reasoning_efort=high) ha raggiunto una precisione del 43,5%.

Tuttavia, le prestazioni sono migliorate notevolmente quando si forniscono versioni pre-analizzate delle pagine utilizzando Databricks. ai_parse_documentmostra che le scarse prestazioni dei PDF grezzi sono dovute al fatto che le API LLM si occupano dell’analisi anziché del ragionamento. Anche con i documenti analizzati, gli esperimenti mostrano che c’è spazio per miglioramenti.

Quando vengono forniti documenti analizzati utilizzando ai_parse_document di Databricks:

  • Claude Opus 4.5 Agent ha raggiunto una precisione del 67,8% (+30,4 punti di miglioramento)

  • L’agente GPT-5.1 ha raggiunto una precisione del 52,8% (+9,3 punti di miglioramento)

Tre risultati importanti per le implementazioni aziendali

Il test ha identificato spunti critici per i professionisti:

L’analisi rimane il principale ostacolo: tabelle complesse con intestazioni nidificate, celle unite e formattazione insolita spesso producono valori disallineati. Anche quando ricevevano pagine Oracle complete, gli agenti faticavano principalmente a causa di errori di analisi, nonostante le prestazioni fossero quasi raddoppiate con i documenti pre-analizzati.

Il controllo delle versioni dei documenti crea incertezza: i documenti finanziari e normativi vengono rivisti e ripubblicati; Ciò significa che, a seconda della data di pubblicazione, è disponibile più di una risposta valida. Gli agenti spesso smettono di cercare una volta trovata una risposta plausibile e perdono fonti più affidabili.

Il ragionamento visivo è una scappatoia: Circa il 3% delle domande richiede l’interpretazione di tabelle o grafici e gli attuali agenti falliscono costantemente. Per le organizzazioni in cui le visualizzazioni dei dati comunicano informazioni critiche, ciò rappresenta una significativa limitazione delle capacità.

In che modo le organizzazioni possono utilizzare OfficeQA?

La progettazione del benchmark fornisce percorsi specifici di miglioramento oltre il semplice punteggio.

"È facile capire se l’errore è dovuto all’analisi perché puoi cercare la risposta corretta." Elsen ha spiegato.

Questa valutazione automatica consente una rapida iterazione nelle condutture in decomposizione. Le risposte basate sulla verità convalidate consentono anche la formazione RL, simile ai benchmark di codifica, poiché non è richiesto alcun giudizio umano.

Elsen ha affermato che il benchmark fornisce: "un segnale di feedback davvero forte" Per gli sviluppatori che lavorano su soluzioni di ricerca. Tuttavia, ha avvertito che questi non dovrebbero essere trattati come dati di allenamento.

"Almeno nella mia immaginazione, lo scopo di pubblicare questo non è una fonte di dati grezzi sulla formazione, ma piuttosto una valutazione." ha detto. "Se ti adatti a questo ambiente in un modo molto specifico, non è chiaro quanto saranno generalizzabili i risultati del tuo agente."

Cosa significa questo per le implementazioni di intelligenza artificiale aziendale?

OfficeQA fornisce un controllo della realtà illuminante per le organizzazioni che attualmente implementano o pianificano sistemi di agenti IA ad alto contenuto di documenti. Anche gli ultimi modelli leader raggiungono solo il 43% di precisione sui PDF grezzi, scendendo al di sotto del 70% anche con la migliore analisi dei documenti. La performance sulle domande più difficili rimane stabile al 40%, indicando un ampio margine di miglioramento.

Tre conseguenze immediate:

Valuta la complessità del tuo documento: se i vostri documenti assomigliano al profilo di complessità dei bollettini del Tesoro (immagini digitalizzate, strutture di tabelle nidificate, riferimenti incrociati tra documenti), aspettatevi una precisione ben inferiore a quanto affermato dal marketing del fornitore. Metti alla prova i tuoi documenti reali prima della distribuzione in produzione.

Piano per l’analisi del collo di bottiglia: I risultati dei test mostrano che l’analisi rimane un inibitore chiave. Budget di tempo e risorse per soluzioni di analisi personalizzate invece di dare per scontato che l’OCR standard sarà sufficiente.

Piano di domande complicate per le modalità di fallimento: Anche con un’analisi ottimale, le ripetizioni rimangono stabili al 40% su domande complesse in più passaggi. Per i flussi di lavoro documentali mission-critical che richiedono analisi di più documenti, calcoli statistici o ragionamento visivo, le capacità degli agenti esistenti potrebbero non essere pronte senza una significativa supervisione umana.

Per le organizzazioni che desiderano essere leader nell’intelligence dei documenti basata sull’intelligenza artificiale, questo benchmark fornisce un quadro di valutazione concreto e identifica specifiche lacune di capacità che devono essere colmate.

Collegamento alla fonte