Sembra che quasi ogni settimana nei due anni trascorsi dal rilascio di ChatGPT, siano stati rilasciati nuovi modelli linguistici di grandi dimensioni (LLM), da laboratori rivali o dallo stesso OpenAI. Le aziende stanno lottando per tenere il passo con il massiccio ritmo del cambiamento, per non parlare di capire come adattarsi; Quale di questi nuovi modelli (se esistenti) dovrebbero adottare per alimentare i loro flussi di lavoro e gli agenti IA specializzati che creano per eseguirli?

I soccorsi sono arrivati: L’inizio dell’osservabilità delle applicazioni di intelligenza artificiale goccia di pioggia Ha iniziato le proveUna nuova funzionalità di analisi che l’azienda descrive come la prima suite di test A/B progettata specificamente per gli agenti AI aziendali, consente alle aziende di vedere e confrontare come l’aggiornamento degli agenti a nuovi modelli di base o la modifica delle istruzioni e dell’accesso agli strumenti influirà sulle loro prestazioni con utenti finali reali.

La versione estende gli strumenti di osservabilità esistenti di Raindrop, offrendo agli sviluppatori e ai team un modo per vedere come i loro agenti si comportano e si evolvono in condizioni reali.

Con gli esperimenti, i team possono monitorare in che modo modifiche come un nuovo strumento, un prompt, l’aggiornamento del modello o il refactoring completo della pipeline influiscono sulle prestazioni dell’intelligenza artificiale in milioni di interazioni degli utenti. La nuova funzionalità è attualmente disponibile per gli utenti del piano di abbonamento Pro di Raindrop ($ 350 al mese) presso: goccia di pioggia.ai.

Una prospettiva basata sui dati sullo sviluppo degli strumenti

Cofondatore di Raindrop e responsabile tecnologico Ben Hylak Ha notato in un video di annuncio del prodotto (sopra) che Esperimenti aiuta i team a vedere “letteralmente come stanno cambiando le cose”, incluso l’utilizzo degli strumenti, le intenzioni degli utenti e i tassi di emissione, e a scoprire differenze basate su fattori demografici come la lingua. L’obiettivo è rendere l’iterazione del modello più trasparente e misurabile.

L’interfaccia Esperimenti presenta visivamente i risultati, mostrando se un esperimento sta funzionando meglio o peggio rispetto al riferimento. L’aumento dei segnali negativi può indicare un maggiore errore dell’attività o un output parziale del codice; e i miglioramenti nei segnali positivi possono riflettere risposte più complete o migliori esperienze utente.

Rendendo questi dati più facili da interpretare, Raindrop incoraggia i team di intelligenza artificiale ad affrontare l’iterazione degli agenti con lo stesso rigore della distribuzione del software moderno; tiene traccia dei risultati, condivide approfondimenti e affronta le regressioni prima che si uniscano.

Background: dall’osservabilità dell’IA alla sperimentazione

Il lancio di Experiments da parte di Raindrop pone le basi come uno dei primi esperimenti dell’azienda. Piattaforme di osservabilità specifiche dell’intelligenza artificialeÈ progettato per aiutare le organizzazioni a monitorare e comprendere il comportamento dei sistemi di intelligenza artificiale generativa in produzione.

Come riportato da VentureBeat all’inizio di quest’anno, la società, originariamente conosciuta come Dawn AI, ha annunciato che Hylak, Chiamando il “problema della scatola nera” delle prestazioni dell’intelligenza artificiale, un ex progettista di interfacce umane di Apple aiuta i team a individuare i guasti “mentre si verificano” e a spiegare alle organizzazioni cosa è andato storto e perché."

All’epoca, Hylak spiegò che “i prodotti di intelligenza artificiale falliscono continuamente, in modi che sono allo stesso tempo divertenti e spaventosi” e notò che, a differenza del software tradizionale che offre chiare eccezioni, “i prodotti di intelligenza artificiale falliscono silenziosamente”. La piattaforma originale di Raindrop si concentrava sul rilevamento di questi errori silenziosi analizzando segnali come feedback degli utenti, errori di attività, rifiuti e altre anomalie del parlato derivanti da milioni di eventi quotidiani.

I soci fondatori dell’azienda Hylak, Alessio GaubaE Zubin Singh Koticha — Ha sviluppato Raindrop dopo aver affrontato in prima persona la sfida del debug dei sistemi IA in produzione.

“Abbiamo iniziato costruendo prodotti di intelligenza artificiale, non infrastrutture”, ha affermato Hylak. VentureBeat. “Ma abbiamo scoperto molto rapidamente che per realizzare qualcosa di serio, avevamo bisogno di strumenti per comprendere il comportamento dell’intelligenza artificiale, e tali strumenti non erano disponibili.”

Raindrop espande la stessa missione con Experiments rilevare malfunzionamenti con misurazione dei miglioramenti. Il nuovo strumento trasforma i dati sull’osservabilità in confronti utilizzabili, consentendo alle organizzazioni di verificare se le modifiche ai loro modelli, prompt o pipeline rendono effettivamente i loro agenti AI migliori o semplicemente diversi.

Risolvere il problema “Le valutazioni hanno successo, gli agenti falliscono”.

I quadri di valutazione tradizionali, sebbene utili per il benchmarking, raramente catturano il comportamento imprevedibile degli agenti di intelligenza artificiale che operano in ambienti dinamici.

Come co-fondatore di Raindrop Alessio Gauba poi è stato annunciato Annuncio di LinkedIn“I benchmark tradizionali non rispondono realmente a questa domanda. Sono ottimi test unitari, ma non puoi prevedere le azioni dei tuoi utenti e il tuo strumento funzionerà per ore, richiamando centinaia di strumenti.”

Gauba ha affermato che l’azienda sente costantemente una frustrazione comune da parte dei team: “I rappresentanti passano, i rappresentanti falliscono”.

Lo scopo è colmare questa lacuna mostrando esperimenti Cosa cambia realmente? quando gli sviluppatori inseriscono aggiornamenti nei loro sistemi.

Lo strumento consente il confronto fianco a fianco di modelli, strumenti, obiettivi o caratteristiche, rivelando differenze misurabili nel comportamento e nelle prestazioni.

Progettato per il comportamento dell’intelligenza artificiale nel mondo reale

Nel video dell’annuncio, Raindrop ha descritto gli esperimenti come un modo per “confrontare tutto e misurare come il comportamento del tuo agente cambia effettivamente attraverso milioni di interazioni reali nella produzione”.

La piattaforma aiuta gli utenti a rilevare problemi come picchi di errori nelle attività, dimenticanze o nuovi strumenti che attivano errori imprevisti.

Può essere utilizzato anche al contrario, partendo da un problema noto come “un agente bloccato nel circuito” e tracciando quale modello, veicolo o bandiera lo sta guidando.

Da qui, gli sviluppatori possono approfondire le tracce dettagliate per trovare la causa principale e inviare rapidamente una soluzione.

Ogni esperimento fornisce un’analisi visiva di parametri quali frequenza di utilizzo degli strumenti, tassi di errore, tempo di parola e durata della risposta.

Gli utenti possono fare clic su qualsiasi benchmark per accedere ai dati degli eventi sottostanti, ottenendo così una visione chiara di come il comportamento degli agenti cambia nel tempo. I collegamenti condivisi semplificano la collaborazione con i compagni di squadra o la segnalazione dei risultati.

Integrazione, scalabilità e precisione

Experiments si integra direttamente con “piattaforme di feature flag che le aziende conoscono e amano (come Statsig!)”, secondo Hylak, ed è progettato per funzionare perfettamente con le pipeline di telemetria e analisi esistenti.

Le aziende che non dispongono di queste integrazioni possono comunque confrontare le prestazioni nel tempo (ad esempio ieri rispetto a oggi) senza richiedere ulteriori configurazioni.

I team in genere hanno bisogno di circa 2.000 utenti al giorno per produrre risultati statisticamente significativi, ha affermato Hylak.

Per garantire l’accuratezza dei confronti, Esperimenti monitora l’adeguatezza delle dimensioni del campione e avvisa gli utenti se un test non dispone di dati sufficienti per trarre conclusioni valide.

“Siamo ossessionati dall’assicurarci che parametri come il fallimento delle attività e la frustrazione degli utenti siano quelli con cui svegliare un ingegnere”, ha spiegato Hylak. Ha aggiunto che i team possono approfondire conversazioni o eventi specifici che guidano questi parametri, fornendo trasparenza dietro ogni numero totale.

Sicurezza e protezione dei dati

Raindrop funziona come una piattaforma ospitata sul cloud ma offre anche la gestione locale delle informazioni di identificazione personale (PII) per le organizzazioni che necessitano di ulteriore controllo.

Hylak ha affermato che l’azienda è conforme a SOC 2 e ha avviato il lancio. Protezione delle informazioni personali Funzionalità che utilizza l’intelligenza artificiale per rimuovere automaticamente le informazioni sensibili dai dati archiviati. “Prendiamo molto sul serio la protezione dei dati dei clienti”, ha sottolineato.

Prezzi e piani

Gli esperimenti fanno parte di Raindrop Piano professionaleche equivale a $ 350 al mese o $ 0,0007 per interazione. Il livello Pro include anche strumenti di ricerca approfondita, clustering di argomenti, monitoraggio personalizzato dei problemi e funzionalità di ricerca semantica.

goccia di pioggia piano di partenza – $ 65 al mese o $ 0,001 per interazione – offre analisi di base tra cui rilevamento dei problemi, segnali di feedback degli utenti, avvisi Slack e monitoraggio degli utenti. Entrambi i piani prevedono una prova gratuita di 14 giorni.

Le organizzazioni più grandi possono scegliere di: Piano aziendale con prezzi speciali e funzionalità avanzate come accesso SSO, avvisi personalizzati, integrazioni, orchestrazione delle credenziali edge e supporto prioritario.

Miglioramento continuo per i sistemi di intelligenza artificiale

Con Experiments, Raindrop si posiziona all’intersezione tra analisi dell’intelligenza artificiale e osservabilità del software. La sua attenzione alla “misurazione della realtà”, come notato nel video del prodotto, riflette una spinta più ampia nel settore verso la responsabilità e la trasparenza nelle operazioni di intelligenza artificiale.

L’approccio di Raindrop enfatizza i dati degli utenti reali e la comprensione contestuale piuttosto che fare affidamento esclusivamente sui confronti offline. L’azienda spera che ciò consentirà agli sviluppatori di intelligenza artificiale di muoversi più velocemente, identificare prima le cause profonde e fornire con sicurezza modelli con prestazioni migliori.

Collegamento alla fonte