Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora
I modelli di grandi dimensioni (LLMS) abbagliati con il ragionamento, la produzione e le capacità automatiche, ma ciò che distingue una demo avvincente da un prodotto permanente non è solo la prima prestazione del modello. Quanto bene il sistema ha imparato dagli utenti reali.
I cicli di feedback mancano strati nella maggior parte della distribuzione dell’intelligenza artificiale. Poiché gli LLM sono integrati in tutto, dai chatbot agli assistenti di ricerca, consulenti di e -commerce, differenziazione reale, non in richieste migliori o API più veloci, ma quanto si raccolgono e si muovono efficacemente. Sia che tu ottenga un pollice, una correzione o una sessione abbandonata, ogni interazione è dati e ogni prodotto ha l’opportunità di migliorarli con esso.
Questo articolo indaga le questioni pratiche, architettoniche e strategiche alla base della creazione di cicli di feedback LLM. Sfruttando le distribuzioni dei prodotti e gli strumenti interni nel mondo reale, studiare come chiudere il ciclo tra il comportamento degli utenti e le prestazioni del modello e perché i sistemi umani nel ciclo sono ancora necessari nell’era dell’IA.
1. Why Static LLMS Plateau
La leggenda dell’intelligenza artificiale nello sviluppo del prodotto è che hai finito quando si fa atuni da un modello o perfeziona le tue richieste. Ma raramente, le cose giocano in produzione.
Ai Stroops sui limiti di ridimensionamento
I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:
- Trasformare l’energia in un vantaggio strategico
- Architetto efficiente deduzione per guadagni di resa reale
- Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili
Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo
Gli LLM sono probabili … sono spesso ridotti o trascinati quando applicati a dati in diretta, casi di bordo o sviluppo di contenuti. Gli utenti si spostano, gli utenti espressioni impreviste e persino piccoli cambiamenti nel contesto (come il suono del marchio o il gergo specifico del campo) altrimenti i risultati forti possono essere rimossi dalla ferrovia.
Senza un meccanismo di feedback, i team inseguono la qualità attraverso una breve durata o un intervento manuale infinito … un tapis roulant che brucia il tempo e rallenta la ripetizione. Invece, i sistemi dovrebbero essere progettati non solo durante la prima formazione, ma anche per imparare dall’uso attraverso segnali continuamente configurati e cicli di feedback del prodotto.
2. Tipi di feedback – Il pollice è alzato/oltre
Il meccanismo di feedback più comune nelle applicazioni che funzionano con LLM è profondamente limitato, sebbene sia facile applicare il pollice binario è su/giù.
Feedback, migliore, multidimensionale. A un utente potrebbe non apprezzare una risposta per molte ragioni: l’errore fattuale, la controversia sul tono, le informazioni mancanti o persino l’interpretazione errata delle intenzioni. Un indicatore binario non cattura nessuna di queste sfumature. Peggio ancora, di solito crea un falso senso di sensibilità per i team che analizzano i dati.
Al fine di sviluppare l’intelligenza di sistema in modo significativo, il feedback dovrebbe essere classificato e contestualizzato. Questo può includere:
- Richieste di correzione strutturate: “Cosa c’è che non va in questa risposta?” con opzioni selezionate (“in realtà sbagliato”, “molto incerto”, “tono sbagliato”). Qualcosa come il tipo di tipo o il camaleonte può essere utilizzato per creare flussi di feedback di applicazione senza disturbare l’esperienza, mentre piattaforme come Zendesk o Happy possono elaborare la categorizzazione configurata in back -end.
- Input di testo formale gratuito: Consenti agli utenti di aggiungere correzioni chiarificanti, parole o risposte migliori.
- Segnali di comportamento impliciti: Lasciare azioni che mostrano la velocità, le azioni di copia/legame o seguire le query.
- Feedback in stile editore: In correzioni, punti salienti o etichettature (per strumenti interni). Nelle applicazioni interne, abbiamo utilizzato la linea di in stile Google Docs in linea, che è ispirata a veicoli come la nozione AI o Grammarly ed è in gran parte basato su interazioni di feedback in gran parte incorporate.
Ognuno di questi crea una superficie di allenamento più ricca che può informare rapidamente il miglioramento, l’iniezione di contesto o le strategie di aumento dei dati.
3. Archiviazione e configurazione del feedback
La raccolta di feedback è utile se può essere configurato, ricevendo e utilizzato per fornire miglioramenti. E a differenza dell’analisi tradizionale, il feedback LLM è sparso dalla natura: una miscela di linguaggio naturale, schemi di comportamento e interpretazione soggettiva.
Per addomesticare questo caos e trasformarlo in un operativo, prova ad aggiungere tre componenti di base alla tua architettura:
1. Database vettoriali per il richiamo semantico
Quando un utente fornisce feedback su una particolare interazione, ad esempio, per contrassegnare una risposta come incerta o correggere una consulenza finanziaria, comprendere e memorizzare questa modifica.
Veicoli come Pinecone, Weavate o Chroma sono popolari per questo. Consentono il ridimensionamento semantico dei posizionamenti. Per i flussi di lavoro di Bulut Mother Mother Tongue, abbiamo anche provato su Google Firestore Plus Plus Vertex AI che semplificano il processo di ricezione di pile basate su Firebase.
Ciò consente di confrontare le voci degli utenti future con i casi di problema noti. Se un’introduzione simile arriva in seguito, possiamo emergere, evitare errori ricorrenti o iniettare dinamicamente il contesto chiarificato.
2. Meta dati configurati per il filtro e l’analisi
Ogni input di feedback viene etichettato con dati ricchi di merci: ruolo dell’utente, tipo di feedback, tempo di sessione, versione del modello, ambiente (sviluppo/test/prod) e livello di fiducia (se presente). Questa struttura consente ai team di prodotto e ingegneria di mettere in discussione e analizzare le tendenze di feedback nel tempo.
3.
Il feedback non vive in uno spazio: una certa richiesta è il risultato del contesto e del comportamento del sistema. L Completa questa mappa e completa le tracce di sessione:
Query utente → contesto di sistema → output del modello → feedback utente
Questa catena di prove fornisce una diagnosi definita di ciò che non va. Inoltre, l’adeguamento rapido mirato, il miglioramento dei dati o la revisione umana nel ciclo supporta anche i processi di flusso come le condutture.
Insieme, questi tre componenti convertono il feedback degli utenti dalla visione sparsa al carburante strutturato per l’intelligenza del prodotto. Rendono i feedback scalabili – ed è parte del continuo miglioramento della progettazione del sistema che si pensa solo a uno in seguito.
4. Chiuderai il ciclo (e come)
Una volta memorizzato e configurato il feedback, la prossima sfida è decidere quando e come muoversi. Tutti i feedback non meritano la stessa risposta: alcuni possono essere applicati all’istante, mentre altri richiedono moderazione, contesto o analisi più profonde.
- Iniezione di contesto: ricorrenza rapida e controllata
Questa è di solito la prima linea di difesa – ed è una delle più flessibili. Sulla base di modelli di feedback, è possibile iniettare ulteriori istruzioni, campioni o spiegazioni per la richiesta di sistema diretta o lo stack di contesto. Ad esempio, usando i modelli di richiesta di Langchain o la messa a terra di Vertex AI attraverso oggetti di contesto, possiamo adattare il tono o l’ambito in risposta a trigger di feedback diffusi. - Sinturatura fine: miglioramenti durevoli e ad alta fiducia
Mentre il feedback ricorrente enfatizza problemi più profondi come la comprensione di debolezza o le informazioni obsolete, potrebbe essere il momento di fare una multa, ma con costi e complessità. - Regolazioni del livello del prodotto: risolvi non solo con AI, ma da UX
Alcuni problemi che sono esposti al feedback non sono guasti LLM: questi sono problemi UX. In molti casi, il miglioramento del livello del prodotto può fare più di qualsiasi impostazione del modello per aumentare la fiducia e la comprensione dell’utente.
Infine, non è necessario tutto il feedback per attivare l’automazione. Alcuni dei loop di leva più elevati includono persone: moderatori, team di prodotti che cercano casi senior, team di prodotto che etichettano diari del linguaggio o esperti sul campo che migliorano nuovi esempi. La chiusura del ciclo non significa sempre essere re -training – questo significa rispondere con il giusto livello di assistenza.
5 ° feedback come strategia di prodotto
I prodotti AI non sono statici. Sono in un mezzo sparso tra automazione e linguaggio, il che significa che devono adattarsi agli utenti in tempo reale.
I team che adottano feedback come colonna strategica invieranno sistemi di intelligenza artificiale più intelligenti, più sicuri e più incentrati sull’uomo.
Prendi feedback come telemetria: osservare lo strumento, osservare e fare riferimento alle sezioni del sistema. L’iniezione di contesto è la possibilità di sviluppare ogni segnale di feedback, sia attraverso la messa a punto o la progettazione dell’interfaccia.
Perché alla fine, insegnare il modello non è solo un compito tecnico. Prodotto.
Presidente ingegneristico Eric Heaton Siberia.
Collegamento alla fonte