Secondo una nuova ricerca di Redis, i team aziendali che ottimizzano i propri modelli di iniezione RAG per una migliore precisione potrebbero involontariamente degradare la qualità di ingestione da cui dipendono tali pipeline.

Carta, "L’allenamento sulla sensibilità della composizione riduce la generalizzazione del recupero intensivo," Ha testato cosa succede quando i team addestrano modelli di posizionamento per la sensibilità alla composizione. Questa è la capacità di catturare frasi che sembrano quasi uguali ma significano qualcosa di diverso. "uomo morso dal cane" opposto "l’uomo ha morso il cane" oppure una negazione che inverte completamente il significato di un’affermazione. Questa formazione ha costantemente interrotto la generalizzazione del recupero intensivo, il che indica quanto bene un modello sia stato richiamato accuratamente in ampi argomenti e domini per i quali non era stato specificamente formato. Le prestazioni sono diminuite dell’8-9% sui modelli più piccoli e del 40% sull’attuale modello walk-in di medie dimensioni che i team utilizzano attivamente nella produzione. I risultati hanno implicazioni dirette per i team aziendali che costruiscono pipeline di intelligenza artificiale mediate, in cui la qualità del recupero determina quale contesto confluisce nella catena di ragionamento dell’agente. In una pipeline a fase singola, un errore di ricezione restituisce una risposta errata. Lo stesso errore nella pipeline di un’agenzia può innescare una cascata di azioni sbagliate a valle.

Srijith Rajamohan, Redis AI Research Lead e uno degli autori dell’articolo, ha affermato che la scoperta mette in discussione le ipotesi comuni su come funziona effettivamente l’accesso basato sull’incorporamento.

"C’è un’idea generale secondo cui quando si utilizza la ricerca semantica o una somiglianza semantica simile, otteniamo l’intento giusto. Questo non è necessariamente vero." Rajamohan ha detto a VentureBeat. "Una somiglianza semantica stretta o elevata non implica in realtà un intento preciso."

La geometria dietro lo scambio di rollback

I modelli di incorporamento funzionano comprimendo un’intera frase in un singolo punto in uno spazio ad alta dimensione e quindi trovando i punti più vicini a una query al momento del recupero. Funziona per un’ampia corrispondenza di argomenti; I documenti su argomenti simili tendono ad essere vicini tra loro. Il problema è che due frasi con quasi le stesse parole ma significati opposti convergono anche perché il modello funziona in base al contenuto delle parole piuttosto che alla struttura.

Questo è ciò che misura lo studio. Quando i team mettono a punto un modello di incorporamento per distinguere tra frasi strutturalmente diverse (insegnandogli che la negazione che inverte il significato di una frase non è la stessa dell’originale), il modello utilizza lo spazio rappresentazionale precedentemente utilizzato per un ampio ricordo attuale. Due bersagli competono per lo stesso vettore. La ricerca ha inoltre rilevato che la regressione non era la stessa per tutti i tipi di guasto. Gli errori di negazione e di traduzione spaziale sono stati migliorati in modo misurabile con la formazione strutturata. Gli errori vincolanti (dove un modello confonde quale modificatore si applica a quale parola, ad esempio quale parte ha l’obbligo contrattuale) sono rimasti praticamente invariati. Per i team aziendali, ciò significa che è più difficile correggere un problema di sensibilità proprio laddove sbagliare ha le maggiori conseguenze.

Il motivo per cui la maggior parte dei team non riesce a cogliere questo aspetto è perché le metriche di messa a punto misurano l’attività da addestrare, non ciò che accade alla portata complessiva su argomenti non correlati. Un modello potrebbe mostrare un forte miglioramento nel rifiuto di un quasi incidente durante l’addestramento, mentre regredisce silenziosamente nel lavoro di recupero più ampio per cui è stato assunto. Il declino si verifica solo nella produzione.

Rajamohan ha affermato che l’istinto che la maggior parte dei team desidera ottenere, ossia passare a un modello di distribuzione più ampio, non affronta l’architettura sottostante.

"Non puoi trovare la via d’uscita da questa situazione." ha detto. "Non è un problema che puoi risolvere con più dimensioni e più parametri."

Perché tutte le alternative standard non sono all’altezza?

Quando la precisione dell’accesso fallisce, l’istinto naturale è quello di applicare approcci aggiuntivi. La ricerca ne ha testati diversi e ha scoperto che ciascuno falliva in modo diverso.

Ricerca ibrida. Combinare l’accesso basato sull’incorporamento con la ricerca per parole chiave è già una pratica standard per colmare le lacune sensibili. Ma Rajamohan ha affermato che la ricerca per parole chiave potrebbe non catturare la modalità di errore identificata da questa ricerca perché il problema non è nelle parole mancanti ma nella struttura mal interpretata.

"Se hai una frase come “Roma è più vicina di Parigi” e un’altra frase come “Parigi è più vicina di Roma” ed esegui un accesso incorporato e quindi una ricerca testuale, non sarai in grado di notare la differenza." ha detto. "Ci sono le stesse parole in entrambe le frasi."

Riordino MaxSim. Alcuni team aggiungono un secondo livello di punteggio che confronta le singole parole della query con le singole parole del documento anziché fare affidamento su un singolo vettore compresso. Questo approccio, noto come MaxSim o interazione tardiva e utilizzato in sistemi come ColBERT, ha migliorato i punteggi dei benchmark di fitness nella ricerca. Tuttavia, non è riuscito a respingere i quasi incidenti strutturali e ha assegnato loro punteggi di somiglianza quasi identici.

Il problema è che rilevanza e identità sono obiettivi diversi. MaxSim è ottimizzato per il primo e cieco nei confronti del secondo. Un team che aggiunge MaxSim e nota miglioramenti nei benchmark potrebbe risolvere un problema diverso da quello che ha.

Transcodificatori. Funzionano inserendo simultaneamente la query e il documento candidato nel modello, consentendogli di confrontare parola per parola prima di prendere una decisione. Questo confronto esatto è ciò che li rende accurati e troppo costosi per essere eseguiti su scala di produzione. Rajamohan ha detto che la sua squadra sta indagando su di loro. Operano in laboratorio e rimangono al di sotto dei volumi di query effettivi.

Memoria contestuale. Di questi sistemi, a volte indicati come memoria agentica, si parla sempre più come del percorso oltre RAG, ma il passaggio a questo tipo di architettura non elimina il problema del recupero strutturale, ha detto Rajamohan. Questi sistemi dipendono ancora dall’accesso al momento della query; Ciò significa che si applicano le stesse modalità di guasto. La differenza principale sono i requisiti di latenza più flessibili, non la correzione di precisione.

Correzione in due passaggi confermata dalla ricerca

Ogni approccio fallito ha la stessa cosa in comune: un unico meccanismo di punteggio che tenta di affrontare contemporaneamente sia il ricordo che la precisione. La ricerca ha confermato un’architettura diversa: smettere di provare a svolgere entrambi i lavori con un unico vettore e assegnare ciascun lavoro a una fase dedicata.

Prima fase: ricordare. La prima fase funziona esattamente come fa oggi l’accesso denso standard; Il modello di incorporamento comprime i documenti in vettori e recupera le corrispondenze più vicine a una query. Qui non cambia nulla. L’obiettivo è gettare un’ampia rete e riportare rapidamente un numero di candidati forti. In questa fase sono importanti la velocità e la larghezza, non la precisione perfetta.

Seconda fase: finalità. La seconda fase è quella in cui avviene la correzione. Invece di assegnare un punteggio ai candidati in base a un singolo numero di somiglianza, un piccolo modello Transformer appreso esamina la query e ciascun candidato a livello di token; Confronta le singole parole con le singole parole per rilevare incongruenze strutturali come spostamenti di negazione o inversioni di ruolo. Questo è il passaggio di verifica che l’approccio a vettore singolo non può eseguire.

Risultati. Nell’ambito della formazione end-to-end, il validatore Transformer ha sovraperformato tutti gli altri approcci testati dallo studio sul rifiuto strutturale dei quasi incidenti. Questo è stato l’unico approccio in grado di catturare in modo affidabile le modalità di guasto perse dal sistema a vettore singolo.

Scambio. L’aggiunta di una fase di verifica introduce un ritardo. Il costo del ritardo dipende dalla quantità di convalida eseguita dal team. Per i carichi di lavoro sensibili alla sensibilità, come le applicazioni legali o contabili, è garantita la convalida completa per ogni query. Per ricerche di carattere generale, una verifica più leggera potrebbe essere sufficiente.

La ricerca è nata da un problema produttivo reale. I clienti aziendali che utilizzavano sistemi di caching semantico ricevevano risposte rapide ma semanticamente errate; Il sistema di recupero trattava le domande dal suono simile come se fossero le stesse, anche se i loro significati erano diversi. L’architettura a due fasi è la soluzione proposta da Redis; Deve essere incluso nel prodotto LangCache nella roadmap ma non è ancora disponibile per i clienti.

Cosa significa questo per i team aziendali?

La ricerca non richiede ai team aziendali di ricostruire da zero le linee di recupero. Ma chiede loro di mettere alla prova ipotesi che la maggior parte dei team non ha mai esaminato prima, su cosa fanno effettivamente i modelli di distribuzione, su quali parametri vale la pena fidarsi e dove si trovano le reali lacune di precisione nella produzione.

Sii consapevole del compromesso prima di aggiustarlo. Rajamohan ha affermato che il primo passo pratico è comprendere che la regressione esiste. Valuta qualsiasi sistema di recupero basato su LLM in base a tre criteri: accuratezza, completezza e utilità. I difetti di accuratezza si riflettono direttamente sugli altri due; Ciò significa che un sistema di recupero che ottiene un buon punteggio in termini di criteri di ammissibilità ma fallisce nei quasi incidenti strutturali produce una falsa percezione della disponibilità della produzione.

RAG non è obsoleto; Ma sappi cosa non può fare. Rajamohan ha fermamente respinto le affermazioni secondo cui la RAG sarebbe stata abrogata. "Questa è un’enorme semplificazione eccessiva." ha detto. "RAG è una pipeline molto semplice che può essere prodotta praticamente da chiunque con una spinta minima." La ricerca non discute contro RAG come architettura. Mette in discussione il presupposto che una pipeline RAG a fase singola con un modello di posizionamento a grana fine sia pronta per la produzione per carichi di lavoro sensibili alla precisione.

La soluzione è reale, ma non è gratuita. Per i team che necessitano di maggiore precisione, Rajamohan ha affermato che l’architettura a due fasi non rappresenta un incremento proibitivo dell’implementazione, ma l’aggiunta di una fase di verifica introduce latenza. "È un problema di mitigazione," ha detto. "In realtà non è qualcosa che possiamo risolvere."

Collegamento alla fonte