Ormai la maggior parte delle organizzazioni ha implementato una qualche forma di RAG. La promessa è seducente: indicizza i tuoi PDF, collega un LLM e democratizza istantaneamente la tua conoscenza istituzionale.
Ma per le industrie fortemente dipendenti dall’ingegneria, la realtà è triste. Gli ingegneri fanno domande specifiche sull’infrastruttura e il robot ha allucinazioni.
Il fallimento non è in LLM. L’errore è nella preelaborazione.
Le pipeline RAG standard trattano i documenti come stringhe di testo semplice. usano "triturazione a dimensione fissa" (troncando il documento ogni 500 caratteri). Questo funziona per la prosa, ma distrugge la logica dei manuali tecnici. Divide le tabelle a metà, separa le didascalie dalle immagini e ignora la gerarchia visiva della pagina.
IOMigliorare l’affidabilità del RAG non significa acquistare un modello più grande; sulla risoluzione del problema "dati oscuri" Problema attraverso la frammentazione semantica e la testualizzazione multimodale.
Ecco la struttura architettonica per costruire un sistema RAG in grado di leggere effettivamente un manuale.
L’errore del Chunking a dimensione fissa
In un tutorial Python RAG standard, dividi il testo per numero di caratteri. In un PDF aziendale questo è disastroso.
Se una tabella delle specifiche di sicurezza copre 1.000 monete e la dimensione dello stack è 500, "limite di tensione" dal titolo "240 V" valore. Il database vettoriale li memorizza separatamente. Quando un utente chiede, "Qual è il limite di tensione?"Il sistema di recupero trova l’intestazione ma non il valore. Costretto a rispondere, il LLM spesso indovina.
Soluzione: suddivisione semantica
Il primo passo per correggere il RAG di produzione è abbandonare il conteggio arbitrario dei caratteri a favore dell’intelligence del documento.
Usando strumenti di analisi in grado di riconoscere il layout (come Azure Document Intelligence), possiamo segmentare i dati in base alla struttura del documento, come capitoli, sezioni e paragrafi, anziché al numero di token.
-
Adattamento logico: Il segmento che descrive una particolare parte della macchina viene mantenuto come un unico vettore anche se la sua lunghezza varia.
-
Protezione del tavolo: Il parser definisce un confine della tabella e forza l’intera griglia in un unico pezzo, preservando le relazioni riga-colonna che sono vitali per un accesso accurato.
Nei nostri benchmark qualitativi interni, il passaggio dalla frammentazione letterale a quella semantica ha migliorato significativamente l’accuratezza del recupero dei dati tabulari, arrestando di fatto la frammentazione delle specifiche.
Sblocca i dati oscuri visivi
La seconda modalità di fallimento del RAG aziendale è la cecità. Un’enorme quantità di IP aziendale non esiste nel testo, ma in diagrammi di flusso, diagrammi e diagrammi dell’architettura di sistema. Modelli di incorporamento standard (come l’incorporamento del testo-3-piccolo) "Da vedere" queste immagini. Vengono saltati durante l’indicizzazione.
Se la tua risposta è contenuta in un diagramma di flusso, il tuo sistema RAG dirà: "Non lo so."
Soluzione: testualizzazione multimodale
Per rendere i diagrammi ricercabili, abbiamo implementato una fase di pre-elaborazione multimodale utilizzando modelli abilitati alla visione (in particolare GPT-4o) prima che i dati raggiungessero l’archivio vettoriale.
-
Estrazione OCR: Il riconoscimento ottico dei caratteri ad alta precisione estrae le etichette di testo dall’interno dell’immagine.
-
Didascalia produttiva: Il modello di visione analizza l’immagine e crea una descrizione dettagliata in linguaggio naturale ("Un diagramma di flusso che mostra che il processo A porta al processo B se la temperatura supera i 50 gradi").
-
Posizionamento ibrido: Questa descrizione generata viene incorporata e archiviata come metadati collegati all’immagine originale.
Ora, quando un utente cerca "flusso del processo di temperatura," corrispondenze della ricerca vettoriale: Definizioneanche se la fonte originale è un file PNG.
Livello di fiducia: interfaccia utente basata sull’evidenza
Per l’adozione aziendale, la precisione è solo metà dell’opera. L’altra metà lo è verificabilità.
In un’interfaccia RAG standard, il chatbot risponde in testo e restituisce un nome di file. Ciò costringe l’utente a scaricare il PDF ed eseguire una ricerca nella pagina per verificare il reclamo. Per query ad alto rischio ("Questa sostanza chimica è infiammabile?"), gli utenti non si fidano del bot.
l’architettura dovrebbe applicare la citazione visiva. Poiché manteniamo la connessione tra la porzione di testo e la relativa immagine principale nella fase di preelaborazione, l’interfaccia utente può visualizzare l’intero grafico o tabella utilizzata per creare la risposta insieme alla risposta testuale.
Questo "mostra il tuo lavoro" Il meccanismo consente alle persone di verificare istantaneamente la logica dell’intelligenza artificiale, colmando il divario di fiducia che ha perseguitato molti progetti interni di intelligenza artificiale.
A prova di futuro: implementazioni multimodali locali
Mentre "testualizzazione" (convertire le immagini in descrizioni testuali) è una soluzione pratica oggi e l’architettura si sta sviluppando rapidamente.
Lo stiamo già vedendo emergere. installazioni multimodali locali (come Embed 4 di Cohere). Questi modelli possono mappare testo e immagini nello stesso spazio vettoriale senza passaggi intermedi come l’aggiunta di didascalie. Sebbene attualmente utilizziamo una pipeline a più fasi per il massimo controllo, il futuro dell’infrastruttura dati includerà probabilmente: "dall’inizio alla fine" Vettorializzazione, in cui il layout di una pagina è direttamente incorporato.
Inoltre, contesto lungo Master La necessità di triturazione può diminuire quando diventa conveniente. Presto potremmo essere in grado di importare guide complete nella finestra di contesto. Tuttavia, finché la latenza e il costo delle chiamate da milioni di token non diminuiranno in modo significativo, la preelaborazione semantica rimarrà la strategia economicamente più fattibile per i sistemi in tempo reale.
Soluzione
La differenza tra la demo RAG e il sistema di produzione sta nel modo in cui gestisce la complessa realtà dei dati aziendali.
Smetti di trattare i tuoi documenti come semplici stringhe di testo. Se vuoi che la tua IA comprenda la tua attività, devi rispettare la struttura dei tuoi documenti. Applicando la frammentazione semantica e sbloccando i dati visivi nei tuoi grafici, trasformi il tuo sistema RAG da una trasformazione. "ricercatore di parole chiave" alla realtà "assistente informativo."
Dippu Kumar Singh è un architetto AI e ingegnere dei dati.














