Ci sono molti dati aziendali intrappolati nei documenti PDF. Certo, gli strumenti di intelligenza artificiale erano in grado di importare e analizzare PDF, ma la precisione, il tempo e il costo erano tutt’altro che ideali. La nuova tecnologia di Databricks potrebbe cambiare la situazione.

L’azienda ha dettagliato questa settimana "ai_parse_document" la tecnologia è ora integrata con la piattaforma Agent Bricks di Databricks. La tecnologia risolve un collo di bottiglia critico nell’adozione dell’intelligenza artificiale aziendale: quasi l’80% delle informazioni aziendali rimane bloccato in PDF, report e diagrammi che i sistemi di intelligenza artificiale faticano a elaborare e comprendere correttamente.

"È opinione comune che l’analisi dei PDF sia un problema risolto, ma in realtà non lo è." Erich Elsen, capo ricercatore presso Databricks, ha dichiarato a VentureBeat: "La sfida non è solo che i documenti non sono strutturati; Questo perché i PDF aziendali sono intrinsecamente complessi. Mescolano contenuti nativi digitali con tabelle, grafici e layout irregolari insieme a pagine scansionate e foto di documenti fisici e la maggior parte degli strumenti esistenti non riesce a catturare con precisione queste informazioni."

La complessità nascosta dietro l’analisi dei documenti

Sebbene il riconoscimento ottico dei caratteri (OCR) esista da decenni, Elsen sostiene che l’estrazione di dati strutturati e utilizzabili da documenti aziendali del mondo reale rimane fondamentalmente irrisolta.

Elementi fondamentali come tabelle con celle unite, didascalie di figure e relazioni spaziali tra gli elementi del documento vengono regolarmente saltati o interpretati erroneamente dagli strumenti esistenti; Ciò rende inaffidabili le applicazioni AI downstream, l’accesso ai sistemi di rendering aumentato (RAG) o i dashboard di business intelligence.

La tipica soluzione aziendale è stata quella di raggruppare insieme più strumenti imperfetti: un servizio per il rilevamento dei modelli, un altro per l’OCR, un terzo servizio per l’estrazione delle tabelle e API aggiuntive per l’analisi della forma. Questo approccio richiede mesi di ingegneria dei dati personalizzata e manutenzione continua man mano che i formati dei documenti si evolvono.

"Per compensare ciò, i team hanno dovuto combinare più strumenti difettosi o creare ampie pipeline personalizzate; ha trascorso mesi sull’ingegneria dei dati invece che sull’innovazione." Elsen ha detto. "ai_parse_document risolve questo problema estraendo dati completi e strutturati da documenti del mondo reale; in questo modo le organizzazioni possono finalmente fidarsi ed eseguire query sui dati non strutturati direttamente in Databricks."

Approccio tecnico: formazione end-to-end e stacking della pipeline

Oggi sul mercato sono disponibili numerosi servizi per l’analisi dei PDF, tra cui AWS Textract, Google Document AI e Azure Document Intelligence, tra gli altri. Elsen ha sostenuto che invece di limitarsi a leggere il testo, lo strumento utilizza un sistema di moderni componenti di intelligenza artificiale addestrati end-to-end per estrarre un contesto strutturato con una qualità all’avanguardia.

La funzione va oltre l’estrazione di base per acquisire:

  • Tabelle conservate esattamente come appaiono, comprese celle unite e strutture nidificate

  • Figure e diagrammi con titoli e descrizioni generati dall’intelligenza artificiale

  • Metadati spaziali e riquadri di delimitazione per la posizione precisa degli elementi

  • Uscite di visualizzazione opzionali per applicazioni di ricerca multimodale

Tutti i risultati vengono archiviati come tabelle Delta direttamente nel catalogo Databricks Unity; Ciò significa che i documenti analizzati diventano dati strutturati interrogabili senza uscire dall’ambiente Databricks. Si tratta di una differenza significativa rispetto ai servizi cloud che richiedono l’esportazione dei dati per l’elaborazione.

"Attraverso la formazione incentrata sui dati e l’inferenza ottimizzata, abbiamo ottenuto costi inferiori di 3-5 volte, eguagliando o superando i sistemi leader come Textract, Document AI e Azure Document Intelligence." Elsen ha detto.

Adozione anticipata delle imprese nei settori manifatturiero e industriale

Molte grandi organizzazioni hanno già implementato ai_parse_document in produzione, con casi d’uso che coprono l’ottimizzazione del flusso di lavoro di data science, la democratizzazione dell’elaborazione dei documenti e lo sviluppo di applicazioni RAG.

Ad esempio, Elsen ha notato che Rockwell Automation utilizza ai_parse_document per ridurre il carico di configurazione per i data scientist.

"Ciò che un tempo richiedeva una configurazione significativa per supportare soluzioni complesse è stato ora semplificato, consentendo ai team di dedicare più tempo all’innovazione e meno tempo alla gestione dell’infrastruttura." ha detto.

Nel frattempo, TE Connectivity utilizza ai_parse_document per democratizzare l’elaborazione dei dati non strutturati.

"In precedenza, l’estrazione di tabelle, testo e metadati dai documenti richiedeva flussi di lavoro complessi e ricchi di codice." Elsen ha detto. "Con Databricks, hanno condensato tutto questo in un’unica funzione SQL, rendendo l’elaborazione avanzata dei documenti accessibile a tutti i team di dati, non solo ai data scientist."

Emerson Electric è anche uno dei primi ad adottare questa tecnologia. usi aziendali ai_parse_document per il caso d’uso RAG. Elsen ha spiegato che, abilitando l’analisi parallela dei documenti direttamente all’interno delle tabelle Delta, Emerson rende la creazione di applicazioni RAG nell’ambiente Databricks esistente rapida e semplice.

Gioco di integrazione della piattaforma

Sebbene Databricks abbia una lunga storia di open source, la tecnologia ai_parse_document è un componente proprietario della piattaforma Databricks.

A differenza delle API di document intelligence autonome, ai_parse_document è profondamente integrato con la piattaforma Agent Bricks di Databricks, una raccolta di funzioni di intelligenza artificiale e capacità di orchestrazione per la creazione di agenti di intelligenza artificiale in produzione.

La funzionalità funziona con l’infrastruttura dati più ampia di Databricks, tra cui:

  • Pipeline con notifica Spark: Fornire l’elaborazione incrementale automatica; Ciò significa che i nuovi documenti che arrivano in SharePoint, S3 o Azure Data Lake Storage vengono analizzati automaticamente senza la necessità di modifiche manuali.

  • Catalogo dell’Unione: Gestisce autorizzazioni, audit trail e derivazione dei dati per i contenuti analizzati, proprio come i dati strutturati.

  • Ricerca vettoriale: Gli indici hanno analizzato gli elementi del documento, inclusi testo di didascalie, tabelle e figure, per applicazioni RAG multimodali.

  • Concatenamento delle funzioni AI: Consente agli sviluppatori di convogliare l’output di ai_parse_document direttamente ad ai_extract (estrazione di entità), ai_classify (categorizzazione dei documenti) e ai_summarize (riepilogo del contenuto) all’interno di una singola query SQL.

  • Supervisore multi-agente: Coordina gli agenti di elaborazione dei documenti con altri agenti specializzati per flussi di lavoro complessi.

"La segregazione è solo l’inizio e raramente è la fine in sé." Elsen ha detto. "L’obiettivo è consentire ai clienti di trasformare i propri documenti in dati e approfondimenti utilizzabili concatenando le nostre funzioni ai_, come ai_extract e ai_classify, insieme ad ai_parse_document. Puntiamo inoltre a rendere semplice la trasformazione di una raccolta di documenti in un database di conoscenza da utilizzare in RAG o altri agenti di recupero."

Cosa significa questo per la strategia AI aziendale?

Per le organizzazioni che creano sistemi di agenti AI, comprendere come i documenti PDF vengono effettivamente utilizzati e compresi dai sistemi è fondamentale.

L’approccio Databricks getta nuova luce su quello che molti potrebbero considerare un problema risolto. Sfida le aspettative attuali con una nuova architettura che può avvantaggiare molteplici tipi di flussi di lavoro. Si tratta tuttavia di una funzionalità specifica della piattaforma che richiede un’attenta considerazione per le organizzazioni che non utilizzano già Databricks.

Il punto chiave per i decisori tecnici che valutano le piattaforme di strumenti di intelligenza artificiale è che l’intelligence dei documenti si sta spostando da un servizio esterno specializzato a una capacità di piattaforma integrata.

Collegamento alla fonte