Il cliente moderno ha una sola importante esigenza: cosa vogliono quando vogliono. Vecchio modello RAG standard collocamento+reclutamento+LLM fraintende l’intento, sovraccarica il contesto e perde la freschezza, indirizzando i clienti ancora e ancora sulla strada sbagliata.
Invece, l’architettura intent-first utilizza un modello linguistico leggero per analizzare la query in termini di intento e contesto prima di consegnarla alle fonti di contenuto più rilevanti (documenti, API, persone).
L’intelligenza artificiale aziendale è un treno veloce diretto verso l’abisso. Mentre le organizzazioni stanno implementando applicazioni di ricerca potenziate a velocità record, un problema architettonico fondamentale predispone molte di esse al fallimento.
Un recente studio Coveo ha rilevato che: Il 72% delle query di ricerca aziendali fallisce Sebbene Gartner preveda che la maggior parte delle implementazioni di IA conversazionale non siano all’altezza delle aspettative aziendali, mira a ottenere risultati significativi al primo tentativo.
Il problema non riguarda i modelli sottostanti. Questa è l’architettura che li circonda.
Dopo aver progettato e gestito piattaforme di coinvolgimento dei clienti basate sull’intelligenza artificiale su larga scala, servendo milioni di clienti e cittadini utenti in alcune delle più grandi organizzazioni di telecomunicazioni e assistenza sanitaria del mondo, ho iniziato a vedere uno schema. È la differenza tra implementazioni di successo basate sull’intelligenza artificiale e fallimenti multimilionari.
nativo del cloud architettonico lo schema che ho detto Prima l’intenzione. E sta rimodellando il modo in cui le aziende creano esperienze basate sull’intelligenza artificiale.
Problema con i passeggeri da $ 36
Gartner prevede che il mercato globale dell’intelligenza artificiale conversazionale crescerà 36 miliardi di dollari entro il 2032. Le aziende stanno lottando per ottenere quote. Le demo sono irresistibili. Quando colleghi il tuo LLM alla tua knowledge base, può improvvisamente rispondere alle domande dei clienti in linguaggio naturale. Sillabare.
Quindi avviene la produzione.
Un grande fornitore di telecomunicazioni con cui lavoro ha introdotto un sistema RAG con l’aspettativa di ridurre la tariffa delle chiamate di supporto. Invece il tasso è aumentato. I chiamanti hanno provato la chiamata assistita dall’intelligenza artificiale, hanno dato risposte errate con un alto grado di sicurezza e hanno chiamato l’assistenza clienti più arrabbiato di prima.
Questo schema viene ripetuto più e più volte. Nel settore sanitario, gli assistenti AI a contatto con i clienti forniscono ai pazienti informazioni sui formulari che sono obsolete di settimane o mesi. I chatbot dei servizi finanziari forniscono risposte dai contenuti dei prodotti sia al dettaglio che aziendali. I rivenditori vedono comparire prodotti fuori produzione nelle loro ricerche di prodotto.
Il problema non è il fallimento della tecnologia AI. Fallimento di questa architettura
Perché le architetture RAG standard falliscono?
Il modello RAG standard di incorporamento della query, recupero di contenuti semanticamente simili ed esportazione in LLM funziona molto bene nelle demo e nelle prove di concetto. Ma nei casi d’uso di produzione fallisce per tre ragioni sistematiche:
1. Divario di intenzioni
L’intenzione non è il contesto. Tuttavia, le architetture RAG standard non ne tengono conto.
Supponiamo che un cliente scriva: “Voglio annullare”. Cosa significa questo? Vuoi annullare un servizio? Vuoi annullare l’ordine? Vuoi cancellare l’appuntamento? Durante la nostra implementazione delle telecomunicazioni, abbiamo riscontrato che il 65% delle richieste di “cancellazione” riguardavano in realtà ordini o appuntamenti, non cancellazioni di servizi. Il sistema RAG non aveva modo di comprendere questo intento, quindi continuava a rispedire i documenti di cancellazione del servizio.
L’intenzione è importante. Nel settore sanitario, se un paziente tenta di annullare un appuntamento, una prescrizione o una procedura perché sul messaggio è scritto “Devo annullare”, indirizzarlo al contenuto del farmaco senza pianificarlo non è solo frustrante ma pericoloso.
2. Alluvione del contesto
La conoscenza e l’esperienza aziendale sono vaste e coprono decine di risorse, come cataloghi di prodotti, fatturazione, articoli di supporto, politiche, promozioni e dati sugli account. I modelli RAG standard li trattano tutti allo stesso modo e li cercano tutti per ogni query.
Quando un cliente chiede “Come posso attivare il mio nuovo telefono”, non si preoccupa delle domande frequenti sulla fatturazione, dell’ubicazione dei negozi o degli aggiornamenti sullo stato della rete. Tuttavia, un modello RAG standard recupera contenuti semanticamente simili da ciascuna fonte e restituisce risultati di ricerca che sono a mezzo passo dalla destinazione.
3. Punto cieco della freschezza
Lo spazio vettoriale è cieco rispetto al tempo. Semanticamente, la promozione dell’ultimo trimestre è la stessa di questo trimestre. Tuttavia, offrire ai clienti offerte obsolete mina la fiducia. Attribuiamo una percentuale significativa di reclami dei clienti ai risultati di ricerca che rivelano prodotti, offerte o funzionalità scaduti.
Modello di architettura Intent-First
Il modello di architettura Intent-First è un’immagine speculare della distribuzione RAG standard. Nel modello RAG prima ricevi e poi dirigi. Nel modello Intent-First, classifichi prima di inoltrare o ricevere.
Le architetture Intent-First utilizzano un modello linguistico leggero per analizzare una query in termini di intento e contesto prima di inviarla alle fonti di contenuto più rilevanti (documenti, API, broker).
Confronto: scopo e RAG standard innanzitutto
Applicazione nativa nel cloud
Il modello Intent-First è progettato per l’implementazione nativa del cloud, sfruttando microservizi, containerizzazione e scalabilità elastica per gestire i modelli di traffico aziendale.
Servizio di classificazione delle finalità
Il classificatore determina l’intento dell’utente prima che avvenga qualsiasi ricezione:
ALGORITMO: Classificazione degli scopi
INPUT: user_query (stringa)
OUTPUT: intent_result (oggetto)
1. Query PREPROCESSO (normalizzazione, espansione delle contrazioni)
2. CLASSIFICAZIONE utilizzando il modello del trasformatore:
– intento_primario ← model.predict(query)
– fiducia ← model.confidence_score()
3. SE confidenza < 0,70 ALLORA
– RITORNO {
richiede_chiarimento: vero,
domanda_suggerita: domanda_di_chiarimento creata(query)
}
4. RIMUOVI sotto_intento in base a primario_intento:
– SE primario = "CONTO" → Selezionare gli elementi ORDER_STATUS, PROFILE ecc.
– SE primario = "SUPPORTO" → DEVICE_ISSUE, NETWORK ecc. Controllare se .
– SE primario = "FATTURAZIONE" → PAGAMENTO, CONTROVERSIA ecc. Controllare se .
5. SPECIFICARE target_resources in base alla mappatura degli intenti:
-STATO_ORDINE → (orders_db, order_faq)
– PROBLEMA_DISPOSITIVO → (risoluzione dei problemi_kb, guide_dispositivo)
– MEDICINA → (formule, clinic_docs) (salute)
6. RITORNO {
intento_primario,
sotto-obiettivo,
fiducioso,
risorse_destinazione,
richiede personalizzazione: vero/falso
}
Servizio di accesso sensibile al contesto
Una volta classificato l’intento, l’accesso è mirato:
ALGORITMO: Accesso sensibile al contesto
INPUT: query, intento_risultato, utente_contesto
OUTPUT: documenti_ordinati
1. OTTIENI source_config per intent_result.sub_intent:
– fonti_primarie ← fonti da cercare
– risorse_escluse ← risorse da saltare
– giorni_freschezza ← età massima del contenuto
2. Se lo scopo richiede personalizzazione E l’utente è autenticato:
– RECUPERA account_context dal servizio account
– SE intento = ORDER_STATUS:
– OTTIENI last_orders (ultimi 60 giorni)
– AGGIUNGI ai risultati
3. CREA filtri di ricerca:
– tipi_di_contenuto ← solo fonti_primarie
– età_max ← freschezza_giorni
– contesto_utente ← contesto_account (se presente)
4. PER OGNI risorsa in fonti_primarie:
– documentazione ← ricerca_vettoriale(query, sorgente, filtri)
– AGGIUNGI documenti ai risultati
5. VALUTARE ogni documento:
– punteggio_pertinenza ← somiglianza_vettore × 0,40
– punteggio_freschezza ← peso_freschezza × 0,20
– punteggio_personalizzazione ← corrispondenza_utente × 0,25
– intent_match_score ← type_match × 0,15
– punteggio_totale ← SOMMA di quanto sopra
6. RANGO decrescente del punteggio_totale
7. RESTITUIRE i primi 10 documenti
Problemi specifici della sanità
In ambito sanitario, il modello Intent-First prevede ulteriori misure di sicurezza:
Categorie di finalità sanitarie:
-
Clinico: Domande sui farmaci, sintomi, istruzioni per la cura
-
Ambito: Vantaggi, autorizzazione preventiva, formule
-
Pianificazione: Appuntamenti, disponibilità del fornitore
-
Fatturazione: Richieste, pagamenti, dichiarazioni
-
Conto: Profilo, persone a carico, carte d’identità
Protezione critica: Le domande cliniche contengono sempre dichiarazioni di non responsabilità e non sostituiscono mai la consulenza medica professionale. Il sistema indirizza domande cliniche complesse al supporto umano.
Gestisci i casi limite
I casi limite sono quelli in cui i sistemi falliscono. Il modello Intent-First include alcuni gestori:
Parole chiave per il rilevamento della frustrazione:
-
Rabbia: "terribile," "il peggiore," "odio," "sciocchezze"
-
Tempo: "ora," "giorni," "Sto ancora aspettando"
-
Colpa: "inutile," "nessun aiuto," "non funziona"
-
Escalation: "parlare con la gente," "persona fisica," "manager"
Quando viene rilevata la frustrazione, salta del tutto la chiamata e indirizzala al supporto umano.
Applicazioni intersettoriali
Il modello Intent-First si applica ovunque le organizzazioni implementino l’intelligenza artificiale conversazionale su contenuti eterogenei:
|
Industria |
Categorie di scopo |
beneficio fondamentale |
|
Telecomunicazione |
Vendite, supporto, fatturazione, account, archiviazione |
impedisce "per annullare" classificazione errata |
|
assistenza sanitaria |
Clinica, ambito, pianificazione, fatturazione |
Separa la clinica dall’amministrazione |
|
servizi finanziari |
Vendita al dettaglio, aziendale, prestiti, assicurazioni |
Impedisce la miscelazione del contesto |
|
Vedere al dettaglio |
Prodotto, Ordini, Resi, Fedeltà |
Garantisce la freschezza della promozione |
Risultati
Dopo aver implementato l’architettura Intent-First su piattaforme di telecomunicazioni e sanità:
|
Metrico |
Colpo di stato |
|
Tasso di successo delle query |
Quasi raddoppiato |
|
Livelli di supporto |
diminuito di oltre la metà |
|
tempo di soluzione |
Ridotto di circa il 70% |
|
Soddisfazione dell’utente |
Migliorato di circa il 50% |
|
Tariffa per l’utente restituito |
Più che raddoppiato |
Si scopre che il tasso di ritorno degli utenti è il più importante. Quando la ricerca funziona, gli utenti tornano. Quando fallisce, abbandonano del tutto il canale e aumentano i costi su tutti gli altri canali di supporto.
imperativo strategico
Il mercato dell’intelligenza artificiale conversazionale continuerà a sperimentare una crescita eccessiva.
Ma le organizzazioni che creano e implementano le tipiche architetture RAG continueranno a fallire ancora e ancora.
L’intelligenza artificiale darà con sicurezza risposte sbagliate, gli utenti abbandoneranno i canali digitali per la frustrazione e i costi di supporto aumenteranno anziché diminuire.
Intent-First rappresenta un cambiamento fondamentale nel modo in cui le aziende dovrebbero progettare e creare conversazioni con i clienti basate sull’intelligenza artificiale. Non si tratta di modelli migliori o di più dati. Si tratta di capire cosa vuole un utente prima di provare ad aiutarlo.
Quanto prima un’organizzazione riconoscerà questo come un imperativo architetturale, tanto prima sarà in grado di ottenere i guadagni di produttività che questa tecnologia dovrebbe fornire. Coloro che non lo faranno dovranno chiedersi perché i loro investimenti nell’intelligenza artificiale non produrranno i risultati aziendali attesi nei prossimi anni.
La dimostrazione è facile. La produzione è difficile. Ma il modello del successo produttivo è chiaro: L’intento innanzitutto.
Sreenivasa Reddy Hulebeedu Reddy è un ingegnere informatico e architetto aziendale leader















