È stato nominato un nuovo framework open source Indice delle pagine Risolve uno dei vecchi problemi dell’Access-Augmented Rendering (RAG): l’elaborazione di documenti molto lunghi.
Il classico flusso di lavoro RAG (impilamento di documenti, calcolo degli incorporamenti, memorizzazione in un database vettoriale e recupero delle migliori corrispondenze in base alla somiglianza semantica) funziona bene per attività di base come domande e risposte su documenti di piccole dimensioni.
PageIndex sta abbandonando lo standard "distruggere e adattarsi" È puramente un metodo e tratta il recupero dei documenti come un problema di navigazione, non come un problema di ricerca.
Ma mentre le aziende cercano di spostare RAG in flussi di lavoro ad alto rischio (revisione di rendiconti finanziari, analisi di contratti legali, navigazione nei protocolli farmaceutici), si scontrano con un ostacolo in termini di precisione che l’ottimizzazione dello stack non può risolvere.
AlphaGo per la documentazione
PageIndex affronta queste limitazioni prendendo in prestito un concetto dall’intelligenza artificiale che gioca al posto dei motori di ricerca: la ricerca ad albero.
Quando le persone hanno bisogno di trovare informazioni specifiche in un libro di testo denso o in un lungo rapporto annuale, non esaminano ogni paragrafo in modo lineare. Fanno riferimento al sommario per identificare la sezione interessata, poi il capitolo e infine la pagina specifica. PageIndex costringe LLM a replicare questo comportamento umano.
Invece di precalcolare i vettori, il framework utilizza a "Indice globale" Organizzare la struttura del documento, creando un albero in cui i nodi rappresentano sezioni, sezioni e sottosezioni. Quando arriva una query, LLM esegue una ricerca nell’albero che classifica esplicitamente ciascun nodo come rilevante o irrilevante in base all’esatto contesto della richiesta dell’utente.
"In termini informatici, un sommario è una rappresentazione strutturata ad albero di un documento, e navigare nel documento corrisponde a cercare nell’albero," disse Zhang. "PageIndex applica la stessa idea di base (ricerca ad albero) al recupero dei documenti e può essere pensato come un sistema di recupero in stile AlphaGo piuttosto che come un gioco."
Ciò sposta il paradigma architettonico dall’accesso passivo, in cui il sistema recupera semplicemente il testo corrispondente, alla navigazione attiva, in cui un modello intermediario decide dove cercare.
Limiti di somiglianza semantica
C’è un difetto fondamentale nel come farlo RAG tradizionale elabora dati complessi. Il recupero dei vettori presuppone che il testo semanticamente più simile alla query dell’utente sia anche il testo più rilevante. Negli ambiti professionali questo presupposto spesso crolla.
Mingtian Zhang, co-fondatore di PageIndex, indica il reporting finanziario come un ottimo esempio di questa modalità di fallimento. Se un analista finanziario chiede all’IA: "EBITDA" (utili prima di interessi, tasse, svalutazione e ammortamento), un database vettoriale standard recupererà ogni pezzo in cui appare questa abbreviazione o un termine simile.
"Più di una sezione può menzionare l’EBITDA in termini simili, ma solo una sezione identifica l’esatto calcolo, le rettifiche o l’ambito di rendicontazione rilevante per la domanda." Zhang ha detto a VentureBeat. "Un ricevitore basato sulla somiglianza avrebbe difficoltà a distinguere questi casi perché i segnali semantici sono virtualmente indistinguibili."
Questo "intenti e contenuti" apertura. L’utente non vuole trovare la parola "EBITDA"; vogliono capire la “logica” che sta dietro a quel trimestre.
Inoltre, gli incorporamenti tradizionali portano la query fuori contesto. Poiché i modelli di incorporamento hanno limiti rigorosi di lunghezza delle voci, il sistema di recupero spesso vede solo la domanda specifica posta e ignora i turni precedenti della conversazione. Ciò separa la fase di recupero dal processo di ragionamento dell’utente. Il sistema abbina i documenti a una breve query priva di contesto anziché alla cronologia completa del problema che l’utente sta cercando di risolvere.
Risolvere il problema del ragionamento multi-hop
L’impatto nel mondo reale di questo approccio strutturale è maggiore in "salto multiplo" Query che richiedono che l’intelligenza artificiale tenga traccia dei breadcrumb nelle diverse parti di un documento.
Un sistema basato su PageIndex è stato utilizzato in un recente test di benchmark noto come FinanceBench. "Altro 2.5" Ha raggiunto un punteggio di precisione all’avanguardia del 98,7%. La differenza di prestazioni tra questo approccio e i sistemi basati su vettori diventa chiara quando si analizza il modo in cui gestiscono i riferimenti interni.
Zhang fornisce un esempio di una query riguardante il valore totale delle attività differite nel rapporto annuale della Federal Reserve. La parte principale del rapporto descrive la “variazione” del valore ma non elenca il totale. Tuttavia, nel testo è presente una nota: “Per informazioni più dettagliate, vedere l’allegato G della presente relazione…”
Un sistema basato su vettori di solito fallisce qui. Il testo nell’Allegato G non ha alcuna somiglianza con la domanda dell’utente in merito alle attività differite; Probabilmente è solo una tabella di numeri. Poiché non si tratta di una corrispondenza semantica, il database vettoriale la ignora.
Ma il parser basato sul ragionamento legge l’indizio nel testo principale, segue il collegamento strutturale all’Appendice G, trova la tabella corretta e restituisce la figura corretta.
Cambiamento della latenza e cambiamento dell’infrastruttura
Per gli architetti aziendali, la preoccupazione immediata di un processo di ricerca incentrato sui master è il ritardo. Le ricerche di vettori avvengono in millisecondi; Avere un master "Da leggere" sommario significa un’esperienza utente notevolmente più lenta.
Tuttavia, Zhang spiega che il ritardo percepito dall’utente finale può essere trascurabile a causa di come la ricezione è integrata nel processo di produzione. In una classica configurazione RAG, l’accesso è un passaggio bloccante: il sistema deve prima effettuare una ricerca nel database prima di poter iniziare a generare una risposta. Con PageIndex, il recupero avviene in linea durante il processo di ragionamento del modello.
"Il sistema può avviare immediatamente lo streaming e riavvolgerlo man mano che viene creato," disse Zhang. "Ciò significa che PageIndex non aggiunge un ulteriore “cancello di rollback” prima del primo token e il Time to First Token (TTFT) è paragonabile a una normale chiamata LLM."
Questo cambiamento architetturale semplifica anche l’infrastruttura dei dati. Eliminando la dipendenza dagli incorporamenti, le aziende non hanno più bisogno di mantenere un database vettoriale dedicato. L’indice strutturato ad albero è sufficientemente leggero da poter essere incluso in un database relazionale tradizionale come PostgreSQL.
Ciò risolve un problema crescente nei sistemi LLM con componenti di recupero: la complessità di mantenere gli archivi vettoriali sincronizzati con i documenti live. PageIndex separa l’indicizzazione della struttura dall’estrazione del testo. Se un contratto viene modificato o una policy viene aggiornata, il sistema può eseguire modifiche minori semplicemente reindicizzando la sottostruttura interessata anziché rielaborare l’intero corpus del documento.
Una matrice decisionale per le imprese
Sebbene i miglioramenti in termini di precisione siano convincenti, l’accesso alla ricerca ad albero non è un’alternativa universale alla ricerca vettoriale. La tecnologia è meglio vista come uno strumento speciale. "lavoro profondo" invece di acquisire tutto per ogni attività di recupero.
Per documenti brevi come e-mail o registri di chat, l’intero contesto spesso rientra nella finestra di contesto di un moderno Master, rendendo superfluo qualsiasi sistema di annullamento. Al contrario, per attività basate interamente sulla scoperta semantica, come consigliare prodotti simili o trovare contenuti con contenuti simili. "vibrazione," Gli incorporamenti di vettori rimangono la scelta migliore poiché l’obiettivo è la prossimità, non il ragionamento.
PageIndex si colloca esattamente nel mezzo: documenti lunghi e altamente strutturati in cui il costo dell’errore è elevato. Ciò include manuali tecnici, documenti depositati presso la FDA e accordi di fusione. In questi scenari, il requisito è la verificabilità. Il sistema impresa deve essere in grado di spiegare non solo la risposta ma anche il percorso intrapreso per trovarla (ad esempio, confermando di aver controllato la Sezione 4.1, seguito il riferimento all’Appendice B e sintetizzato i dati ivi presenti).
Il futuro dell’accesso mediato
L’ascesa di framework come PageIndex segnala una tendenza più ampia nello stack AI: "Agente RAG." Man mano che i modelli diventano più capaci di pianificazione e ragionamento, la responsabilità di trovare i dati si sposta dal livello del database al livello del modello.
Lo stiamo già vedendo nello spazio di codifica con le agenzie. Codice Claudio e Cursor si allontana dalle semplici ricerche vettoriali a favore dell’esplorazione attiva della base di codice. Zhang ritiene che l’acquisizione generale dei documenti seguirà lo stesso percorso.
"I database vettoriali hanno ancora casi d’uso adatti." disse Zhang. "Tuttavia, il loro ruolo storico come database predefinito per la laurea magistrale e l’intelligenza artificiale diventerà meno chiaro nel tempo."















