Home Politica La maggior parte dei sistemi RAG non comprendono documenti complessi; facendoli a...

Politica

La maggior parte dei sistemi RAG non comprendono documenti complessi; facendoli a pezzi

31 Gennaio 2026

Ormai la maggior parte delle organizzazioni ha implementato una qualche forma di RAG. La promessa è seducente: indicizza i tuoi PDF, collega un LLM e democratizza istantaneamente la tua conoscenza istituzionale.

Ma per le industrie fortemente dipendenti dall’ingegneria, la realtà è triste. Gli ingegneri fanno domande specifiche sull’infrastruttura e il robot ha allucinazioni.

Il fallimento non è in LLM. L’errore è nella preelaborazione.

Le pipeline RAG standard trattano i documenti come stringhe di testo semplice. usano "triturazione a dimensione fissa" (troncando il documento ogni 500 caratteri). Questo funziona per la prosa, ma distrugge la logica dei manuali tecnici. Divide le tabelle a metà, separa le didascalie dalle immagini e ignora la gerarchia visiva della pagina.

IOMigliorare l’affidabilità del RAG non significa acquistare un modello più grande; sulla risoluzione del problema "dati oscuri" Problema attraverso la frammentazione semantica e la testualizzazione multimodale.

Ecco la struttura architettonica per costruire un sistema RAG in grado di leggere effettivamente un manuale.

L’errore del Chunking a dimensione fissa

In un tutorial Python RAG standard, dividi il testo per numero di caratteri. In un PDF aziendale questo è disastroso.

Se una tabella delle specifiche di sicurezza copre 1.000 monete e la dimensione dello stack è 500, "limite di tensione" dal titolo "240 V" valore. Il database vettoriale li memorizza separatamente. Quando un utente chiede, "Qual è il limite di tensione?"Il sistema di recupero trova l’intestazione ma non il valore. Costretto a rispondere, il LLM spesso indovina.

Soluzione: suddivisione semantica

Il primo passo per correggere il RAG di produzione è abbandonare il conteggio arbitrario dei caratteri a favore dell’intelligence del documento.

Usando strumenti di analisi in grado di riconoscere il layout (come Azure Document Intelligence), possiamo segmentare i dati in base alla struttura del documento, come capitoli, sezioni e paragrafi, anziché al numero di token.

Adattamento logico: Il segmento che descrive una particolare parte della macchina viene mantenuto come un unico vettore anche se la sua lunghezza varia.
Protezione del tavolo: Il parser definisce un confine della tabella e forza l’intera griglia in un unico pezzo, preservando le relazioni riga-colonna che sono vitali per un accesso accurato.

Nei nostri benchmark qualitativi interni, il passaggio dalla frammentazione letterale a quella semantica ha migliorato significativamente l’accuratezza del recupero dei dati tabulari, arrestando di fatto la frammentazione delle specifiche.

Sblocca i dati oscuri visivi

La seconda modalità di fallimento del RAG aziendale è la cecità. Un’enorme quantità di IP aziendale non esiste nel testo, ma in diagrammi di flusso, diagrammi e diagrammi dell’architettura di sistema. Modelli di incorporamento standard (come l’incorporamento del testo-3-piccolo) "Da vedere" queste immagini. Vengono saltati durante l’indicizzazione.

Se la tua risposta è contenuta in un diagramma di flusso, il tuo sistema RAG dirà: "Non lo so."

Soluzione: testualizzazione multimodale

Per rendere i diagrammi ricercabili, abbiamo implementato una fase di pre-elaborazione multimodale utilizzando modelli abilitati alla visione (in particolare GPT-4o) prima che i dati raggiungessero l’archivio vettoriale.

Estrazione OCR: Il riconoscimento ottico dei caratteri ad alta precisione estrae le etichette di testo dall’interno dell’immagine.
Didascalia produttiva: Il modello di visione analizza l’immagine e crea una descrizione dettagliata in linguaggio naturale ("Un diagramma di flusso che mostra che il processo A porta al processo B se la temperatura supera i 50 gradi").
Posizionamento ibrido: Questa descrizione generata viene incorporata e archiviata come metadati collegati all’immagine originale.

Ora, quando un utente cerca "flusso del processo di temperatura," corrispondenze della ricerca vettoriale: Definizioneanche se la fonte originale è un file PNG.

Livello di fiducia: interfaccia utente basata sull’evidenza

Per l’adozione aziendale, la precisione è solo metà dell’opera. L’altra metà lo è verificabilità.

In un’interfaccia RAG standard, il chatbot risponde in testo e restituisce un nome di file. Ciò costringe l’utente a scaricare il PDF ed eseguire una ricerca nella pagina per verificare il reclamo. Per query ad alto rischio ("Questa sostanza chimica è infiammabile?"), gli utenti non si fidano del bot.

l’architettura dovrebbe applicare la citazione visiva. Poiché manteniamo la connessione tra la porzione di testo e la relativa immagine principale nella fase di preelaborazione, l’interfaccia utente può visualizzare l’intero grafico o tabella utilizzata per creare la risposta insieme alla risposta testuale.

Questo "mostra il tuo lavoro" Il meccanismo consente alle persone di verificare istantaneamente la logica dell’intelligenza artificiale, colmando il divario di fiducia che ha perseguitato molti progetti interni di intelligenza artificiale.

A prova di futuro: implementazioni multimodali locali

Mentre "testualizzazione" (convertire le immagini in descrizioni testuali) è una soluzione pratica oggi e l’architettura si sta sviluppando rapidamente.

Lo stiamo già vedendo emergere. installazioni multimodali locali (come Embed 4 di Cohere). Questi modelli possono mappare testo e immagini nello stesso spazio vettoriale senza passaggi intermedi come l’aggiunta di didascalie. Sebbene attualmente utilizziamo una pipeline a più fasi per il massimo controllo, il futuro dell’infrastruttura dati includerà probabilmente: "dall’inizio alla fine" Vettorializzazione, in cui il layout di una pagina è direttamente incorporato.

Inoltre, contesto lungo Master La necessità di triturazione può diminuire quando diventa conveniente. Presto potremmo essere in grado di importare guide complete nella finestra di contesto. Tuttavia, finché la latenza e il costo delle chiamate da milioni di token non diminuiranno in modo significativo, la preelaborazione semantica rimarrà la strategia economicamente più fattibile per i sistemi in tempo reale.

Soluzione

La differenza tra la demo RAG e il sistema di produzione sta nel modo in cui gestisce la complessa realtà dei dati aziendali.

Smetti di trattare i tuoi documenti come semplici stringhe di testo. Se vuoi che la tua IA comprenda la tua attività, devi rispettare la struttura dei tuoi documenti. Applicando la frammentazione semantica e sbloccando i dati visivi nei tuoi grafici, trasformi il tuo sistema RAG da una trasformazione. "ricercatore di parole chiave" alla realtà "assistente informativo."

Dippu Kumar Singh è un architetto AI e ingegnere dei dati.

Collegamento alla fonte

La maggior parte dei sistemi RAG non comprendono documenti complessi; facendoli a pezzi

L’errore del Chunking a dimensione fissa

Soluzione: suddivisione semantica

Sblocca i dati oscuri visivi

Soluzione: testualizzazione multimodale

Livello di fiducia: interfaccia utente basata sull’evidenza

A prova di futuro: implementazioni multimodali locali

Soluzione

Ultimo post

Il Liverpool si è già assicurato due trasferimenti per Arne Slot...

Lo scrittore del progetto Hail Mary Andy Weir non è un...

Le taglie di guerra generano profitti – Danske Bank

Donald Trump definisce i giudici della Corte Suprema “stupidi”

Nueva Pescanova torna sulla strada dei profitti e supera i 1.000...

I Panthers cadono contro i Rangers a New York e continuano...

M5 MacBook Air contro Panther Lake: quale laptop da $ 1.100...

La RBI riduce le posizioni bancarie per sostenere la Rupia –...

Gli utenti di Medicare che non rispettano la scadenza di marzo...

Le forze missilistiche iraniane hanno interrotto la sessione del parlamento israeliano,...

Prezzo dell’argento oggi: in aumento il 30 marzo

Il GOP chiede di ritirare i bambini privi di documenti dalle...

Categoria