Qual è il ruolo dei database vettoriali nel mondo dell’intelligenza artificiale delle agenzie? È una questione con cui le organizzazioni hanno dovuto fare i conti negli ultimi mesi. La narrazione ha avuto un vero slancio. Man mano che i modelli linguistici di grandi dimensioni si adattavano a finestre di contesto composte da milioni di token, tra gli architetti aziendali circolava un argomento convincente: la ricerca vettoriale appositamente creata era una soluzione alternativa, non un’infrastruttura. La memoria dell’agenzia eliminerà il problema del recupero. I database vettoriali erano un prodotto dell’era RAG.
Le prove della produzione puntano nella direzione opposta.
QdrantLa società di ricerca vettoriale open source con sede a Berlino ha annunciato giovedì la sua Serie B da 50 milioni di dollari, due anni dopo la Serie A da 28 milioni di dollari. La tempistica non è casuale. L’azienda distribuisce anche la versione 1.17 della sua piattaforma. Insieme riflettono un argomento specifico: il problema del recupero non è diminuito con l’arrivo degli agenti. È diventato più grande e più difficile.
"Le persone fanno diverse domande ogni pochi minuti," Andre Zayarni, CEO e co-fondatore di Qdrant, ha dichiarato a VentureBeat: "Gli agenti effettuano centinaia o addirittura migliaia di query al secondo, raccogliendo semplicemente informazioni per prendere decisioni."
Questo cambiamento sta modificando i requisiti infrastrutturali in modi che le implementazioni dell’era RAG non potrebbero mai gestire.
Perché gli agenti necessitano di un livello di accesso che non possa sostituire la memoria?
Gli agenti lavorano su informazioni per le quali non sono mai stati addestrati: dati aziendali proprietari, informazioni aggiornate, milioni di documenti in continua evoluzione. Le finestre di contesto gestiscono lo stato della sessione. Non forniscono ricerche di richiamo elevate su questi dati, non mantengono la qualità del recupero quando i dati cambiano o sostengono i volumi di query generati dal processo decisionale autonomo.
"La maggior parte dei framework di memoria AI utilizza una qualche forma di archiviazione vettoriale," Zayarni ha detto.
L’implicazione è semplice: anche gli strumenti posizionati come alternative alla memoria si basano sull’infrastruttura di accesso sottostante.
Quando questo livello di ripristino non è creato specificatamente per il carico, si verificano tre modalità di errore. A livello di documento, un risultato mancato non è un problema di latenza; si tratta di un problema di qualità decisionale che combina ogni passaggio di rollback in un singolo turno dell’agente. Sotto carico di scrittura, la pertinenza diminuisce poiché i dati appena recuperati risiedono in segmenti non ottimizzati prima che l’indicizzazione raggiunga il ritardo, causando una ricerca sui dati più recenti più lenta e meno accurata quando le informazioni esistenti sono più importanti. Nell’infrastruttura distribuita, una singola copia lenta impone latenza su ogni chiamata parallela del veicolo in una rotazione dell’agente; si tratta di un ritardo che l’utente umano considera un inconveniente, ma che un agente autonomo non può.
La versione 1.17 di Qdrant affronta direttamente ciascuno di questi. La query di feedback sulla pertinenza migliora il ricordo regolando il punteggio di somiglianza nel passaggio di recupero successivo utilizzando i segnali generati dal modello leggero, senza riqualificare il modello di incorporamento. La funzionalità di propagazione ritardata esegue il polling di una seconda replica quando la prima supera una soglia di ritardo configurabile. Una nuova API di telemetria a livello di cluster sostituisce la risoluzione dei problemi nodo per nodo con un’unica visualizzazione dell’intero cluster.
Perché Qdrant non vuole più essere chiamato database vettoriale?
Quasi tutti i principali database ora supportano i vettori come tipo di dati, dagli hyperscaler ai sistemi relazionali tradizionali. Questo cambiamento ha cambiato la questione competitiva. Il tipo di dati ora è table stakes. Ciò che continua a specializzarsi è la qualità del recupero su scala di produzione.
Questa distinzione è il motivo per cui Zayarni non vuole più che Qdrant venga definito un database vettoriale.
"Stiamo creando un livello di accesso alle informazioni adatto all’era dell’intelligenza artificiale." ha detto. "I database servono per archiviare i dati dell’utente. Se la qualità dei risultati di ricerca è importante, hai bisogno di un motore di ricerca."
Il suo consiglio ai team principianti: usa il supporto vettoriale che hai già nel tuo stack. I team che passano all’accesso mirato lo fanno quando le dimensioni li mettono alla prova.
"Vediamo aziende venire da noi ogni giorno e dire di aver iniziato con Postgres e di aver pensato che fosse abbastanza buono, ma non lo è."
L’architettura di Qdrant, scritta in Rust, offre efficienza della memoria e controllo delle prestazioni di basso livello che i linguaggi di livello superiore non possono eguagliare allo stesso costo. Combina vantaggi come una base open source, feedback della comunità e adozione da parte degli sviluppatori, consentendo a un’azienda delle dimensioni di Qdrant di competere con fornitori con risorse ingegneristiche molto più grandi.
"Senza di lui non saremmo dove siamo adesso," Zayarni ha detto.
Come due team di produzione hanno scoperto i limiti dei database generici
Le aziende che costruiscono sistemi di IA di produzione su Qdrant sostengono lo stesso argomento da diverse angolazioni: gli agenti hanno bisogno di un livello di accesso e la voce o la memoria contestuale non possono sostituirlo.
GlassDollar aiuta organizzazioni come Siemens e Mahle a valutare le startup. La ricerca è il prodotto principale: un utente identifica un bisogno nel linguaggio naturale e restituisce un elenco selezionato da una raccolta di milioni di aziende. L’architettura esegue l’espansione della query su ogni richiesta; Un singolo prompt viene distribuito su più query parallele, ciascuna delle quali prende i candidati da un’angolazione diversa, prima che i risultati vengano combinati e riordinati. Si tratta di un modello di accesso intermediato, non di un modello RAG, e richiede un’infrastruttura di ricerca appositamente creata per sostenere il volume.
L’azienda è migrata da Elasticsearch arrivando a 10 milioni di documenti indicizzati. Dopo essere passato a Qdrant, ha ridotto i costi dell’infrastruttura di quasi il 40%, ha rimosso il livello di tariffa basato sulle parole chiave mantenuto da Elasticsearch per compensare le lacune di pertinenza e ha riscontrato un aumento di 3 volte del coinvolgimento degli utenti.
"Misuriamo il successo in base al ricordo," Kamen Kanev, responsabile del prodotto presso GlassDollar, ha dichiarato a VentureBeat: "Se le migliori aziende non vengono incluse nei risultati, nient’altro conta. L’utente perde la fiducia."
Anche la memoria dell’agenzia e le finestre di contesto estese non sono sufficienti per soddisfare il carico di lavoro richiesto da GlassDollar.
"Si tratta di un problema di infrastruttura, non di un’attività di gestione dello stato della conversazione." Kanev ha detto. "Questo non è qualcosa che puoi risolvere espandendo la finestra di contesto."
Un altro utente Qdrant &intelligenza artificialeCrea l’infrastruttura per le cause sui brevetti. L’agente di intelligenza artificiale Andy esegue ricerche semantiche su centinaia di milioni di documenti che abbracciano decenni e molteplici giurisdizioni. I consulenti in brevetti non agiranno sui testi legali generati dall’IA; Ciò significa che ogni conclusione prodotta dall’agente deve essere basata su un documento reale.
"Tutta la nostra architettura è progettata per ridurre al minimo il rischio di allucinazioni garantendo che il ritorno del nucleo, non la generazione, sia primitivo." Herbie Turner, fondatore e CTO di &AI, ha dichiarato a VentureBeat:
Per &AI, il livello agente e il livello ricevente hanno una progettazione diversa.
"Il nostro rappresentante brevetti, Andy, si basa su Qdrant." disse Turner. "L’intermediario è l’interfaccia. Il database vettoriale è la verità fondamentale."
Tre segnali che indicano che è ora di abbandonare la configurazione attuale
Punto di partenza pratico: usa la capacità vettoriale che hai già nel tuo stack. La questione della valutazione non è se aggiungere la ricerca vettoriale, ma quando la configurazione attuale non è più sufficiente. Tre segnali evidenziano questo punto: la qualità dell’accesso è direttamente legata ai risultati aziendali; i modelli di query includono espansione, riordino in più fasi o chiamate a strumenti paralleli; oppure il volume di dati raggiunge decine di milioni di documenti.
A questo punto, la valutazione si sposta su domande operative: quanta visibilità offre la configurazione attuale su ciò che accade in un cluster distribuito e quanto margine di prestazioni ha l’agente quando i volumi delle query aumentano?
"C’è molto rumore in questo momento su cosa sostituirà lo strato di rollback." Kanev ha detto. "Ma per chiunque crei un prodotto in cui la qualità del recupero è il prodotto e la mancanza di un risultato porta a conseguenze aziendali reali, è necessaria un’infrastruttura di ricerca dedicata."















