Non è l’intelligenza dei modelli di intelligenza artificiale a frenare le implementazioni aziendali. Innanzitutto non riuscire a definire e misurare la qualità.
È qui che le giurie sull’intelligenza artificiale svolgono ora un ruolo sempre più importante. Nella valutazione dell’intelligenza artificiale, "giudice" È un sistema di intelligenza artificiale che valuta gli output di un altro sistema di intelligenza artificiale.
Judge Builder è il framework per la creazione di giurie di Databricks ed è stato inizialmente distribuito come parte dell’azienda. Agente Mattoni tecnologia all’inizio di quest’anno. Il framework si è evoluto in modo significativo dal suo lancio iniziale in risposta al feedback diretto degli utenti e alle implementazioni.
I primi rilasci si concentravano sull’implementazione tecnica, ma il feedback dei clienti ha rivelato che il vero collo di bottiglia era l’allineamento organizzativo. Databricks offre ora un processo di workshop strutturato che guida i team attraverso tre sfide chiave: convincere le parti interessate a concordare criteri di qualità, acquisire competenze nel settore da esperti in materia limitata e implementare sistemi di valutazione su larga scala.
"L’intelligenza del modello generalmente non è il collo di bottiglia, i modelli sono veramente intelligenti," Jonathan Frankle, capo scienziato dell’intelligenza artificiale presso Databricks, ha detto a VentureBeat in un briefing esclusivo. "Si tratta invece di porre la domanda: come facciamo a far sì che i modelli facciano ciò che vogliamo e come facciamo a sapere se stanno facendo ciò che vogliamo?"
Il “problema Ouroboros” della valutazione dell’intelligenza artificiale
Judge Builder tocca ciò che Pallavi Koppol, il ricercatore di Databricks che ha guidato lo sviluppo, chiama “The Guardian”. "Problema dell’uroboro." Ouroboros è un antico simbolo raffigurante un serpente che si mangia la coda.
L’utilizzo dei sistemi di intelligenza artificiale per valutare i sistemi di intelligenza artificiale crea una sfida di convalida circolare.
"Vuoi che un arbitro veda se il tuo sistema è buono, il tuo sistema di intelligenza artificiale è buono, ma anche il tuo arbitro è un sistema di intelligenza artificiale." Ha spiegato Koppol. "Ora chiedi, come faccio a sapere che questo giudice è bravo?"
La soluzione viene misurata "distanza dell’esperto umano dalla verità fondamentale" come funzione primaria di punteggio. Riducendo al minimo il divario tra il modo in cui un giudice AI assegna un punteggio ai risultati e il modo in cui gli esperti del settore li valuterebbero, le organizzazioni possono fare affidamento su questi giudici come proxy scalabili per la valutazione umana.
Questo approccio è fondamentalmente diverso dagli approcci tradizionali. sistemi di ringhiere o valutazioni metriche singole. Invece di chiedere se un output dell’intelligenza artificiale ha superato un controllo di qualità generale, Judge Builder crea criteri di valutazione altamente specifici adattati alle competenze di dominio e alle esigenze aziendali di ciascuna organizzazione.
Anche l’implementazione tecnica lo distingue dagli altri. Judge Builder si integra con MLflow di Databricks e ottimizzazione veloce Ha gli strumenti e può funzionare con qualsiasi modello base. I team possono controllare la versione dei propri giudici, tenere traccia delle prestazioni nel tempo e assegnare più giudici a diverse dimensioni di qualità contemporaneamente.
Lezioni apprese: creare arbitri che funzionino davvero
Il lavoro di Databricks con i clienti aziendali ha rivelato tre lezioni fondamentali che si applicano a chiunque formi una giuria di intelligenza artificiale.
Lezione uno: i tuoi esperti non sono d’accordo quanto pensi. Quando la qualità è soggettiva, le organizzazioni scoprono che anche i loro esperti in materia non riescono a concordare quale sia il risultato accettabile. Una risposta del servizio clienti può effettivamente essere accurata ma utilizzare un tono inappropriato. Un riepilogo finanziario può essere completo ma potrebbe essere troppo tecnico per il pubblico target.
"Una delle più grandi lezioni da tutto questo processo è che tutti i problemi diventano problemi delle persone." Ha detto Frank. "La parte più difficile è prendere un’idea dal cervello di una persona e trasformarla in qualcosa di chiaro. La parte difficile è che le aziende sono composte da molte menti anziché da un unico cervello."
La correzione è un’annotazione di massa con controlli di affidabilità tra valutatori. I team annotano gli esempi in piccoli gruppi e poi misurano i punteggi di accordo prima di proseguire. Questo rileva presto il disallineamento. In un caso, tre esperti hanno assegnato valutazioni pari a 1, 5 e neutrali per lo stesso risultato prima che la discussione rivelasse che interpretavano i criteri di valutazione in modo diverso.
Le aziende che utilizzano questo approccio hanno punteggi di affidabilità tra valutatori fino a 0,6, rispetto ai punteggi tipici di 0,3 dei servizi di divulgazione esterni. Poiché i dati di allenamento contengono meno rumore, un accordo più elevato si traduce direttamente in una migliore prestazione dell’arbitro.
Lezione due: riservare criteri vaghi a giudici specifici. Invece di un giudice che valuta se una risposta è appropriata "pertinente, fattuale e conciso," Crea tre giudici separati. Ciascuno mira a un aspetto specifico della qualità. Questo livello di dettaglio è importante perché non è riuscito "qualità complessiva" Il punteggio rivela che qualcosa non va ma non indica cosa correggere.
I migliori risultati si ottengono combinando requisiti top-down, come vincoli normativi, priorità delle parti interessate, ecc., con la scoperta bottom-up dei modelli di fallimento osservati. Un cliente ha creato un giudice top-down per l’accuratezza, ma ha scoperto attraverso l’analisi dei dati che le risposte corrette mostravano quasi sempre i primi due risultati di accesso. Questa intuizione è diventata un nuovo giudice favorevole alla produzione in grado di rappresentare l’accuratezza senza la necessità di etichette di accuratezza rigorose.
Lezione tre: hai bisogno di meno esempi di quanto pensi. I team possono creare giudici forti partendo da soli 20-30 campioni ben selezionati. L’importante è scegliere casi estremi che rivelano disaccordo, piuttosto che esempi ovvi in cui tutti sono d’accordo.
"Con alcune squadre, possiamo portare a termine questo processo in appena tre ore, quindi non ci vuole molto tempo per trovare un buon arbitro." disse Koppol.
Risultati della produzione: dai progetti pilota alle implementazioni a sette cifre
Frankle ha condiviso tre metriche che Databricks utilizza per misurare il successo di Judge Builder: se i clienti desiderano utilizzarlo di nuovo, se aumentano la spesa per l’intelligenza artificiale e se sono più avanti nel loro percorso verso l’intelligenza artificiale.
Nella prima misurazione, un cliente ha generato più di una dozzina di giudici dopo il primo workshop. "Questo cliente ha avuto più di una dozzina di giudici dopo aver chiesto loro di farlo meticolosamente per la prima volta con questo telaio." Ha detto Frank. "Hanno davvero criticato i giudici e ora stanno misurando tutto."
Per la seconda misura, l’impatto aziendale è chiaro. "Ci sono molti clienti che hanno seguito questo workshop e stanno spendendo sette cifre su GenAI presso Databricks come mai prima d’ora." Ha detto Frank.
La terza metrica rivela il valore strategico di Judge Builder. I clienti che in precedenza erano riluttanti a utilizzare tecniche avanzate come l’apprendimento per rinforzo, ora si sentono sicuri nell’usarle perché possono misurare se i miglioramenti si stanno effettivamente verificando.
"Ci sono clienti che vanno e fanno cose molto avanzate dopo aver avuto questi arbitri che prima erano riluttanti a fare." Ha detto Frank. "Sono passati dal fare un po’ di ingegneria rapida con noi all’apprendimento per rinforzo. Perché spendere soldi nell’apprendimento per rinforzo e perché sprecare le tue energie nell’apprendimento per rinforzo se non sai se fa effettivamente la differenza?"
Cosa devono fare le aziende adesso
I team che riescono a trasferire con successo l’intelligenza artificiale dalla fase pilota a quella di produzione considerano i membri della giuria non come artefatti unici, ma come entità che crescono e si sviluppano insieme ai loro sistemi.
Databricks consiglia tre passaggi pratici. Innanzitutto, concentrati sui giudici ad alto impatto identificando un requisito normativo critico più una modalità di fallimento osservata. Questi diventeranno il tuo primo portfolio da arbitro.
In secondo luogo, crea flussi di lavoro leggeri con esperti in materia. L’esame di 20-30 casi estremi nell’arco di diverse ore fornisce una calibrazione sufficiente per la maggior parte dei giudici. Utilizza annotazioni aggregate e controlli di affidabilità tra valutatori per rimuovere il rumore dai tuoi dati.
Terzo, pianifica le revisioni regolari dei giudici utilizzando i dati di produzione. Man mano che il tuo sistema si evolve, emergeranno nuove modalità di guasto. Il tuo portafoglio dominante dovrebbe evolversi con loro.
"Un giudice è un modo per valutare un modello, è anche un modo per costruire guardrail, è anche un modo per avere una metrica che puoi ottimizzare al volo, ed è anche un modo per avere una metrica su cui puoi eseguire l’apprendimento per rinforzo." Ha detto Frank. "Una volta che hai un giudice che sai rappresentare empiricamente il tuo gusto umano e che puoi mettere in discussione quanto vuoi, puoi usarlo in 10.000 modi diversi per misurare o migliorare i tuoi rappresentanti."















