I tradizionali strumenti ETL come Dbt o Fivetran preparano i dati per il reporting: analisi strutturate e dashboard con schemi stabili. Le applicazioni di intelligenza artificiale hanno bisogno di qualcosa di diverso: preparare dati operativi complessi e in evoluzione in tempo reale per l’inferenza del modello.
Empromptu chiama questa distinzione nel modo seguente: "integrità dell’inferenza" opposto "integrità del reporting." Invece di trattare la preparazione dei dati come una disciplina separata, le pipeline gold integrano la normalizzazione direttamente nel flusso di lavoro dell’applicazione AI, riducendo quelli che normalmente richiederebbero 14 giorni di ingegneria manuale a meno di un’ora, afferma l’azienda. Estemporaneo "gasdotto d’oro" L’approccio è un modo per accelerare la preparazione dei dati e garantirne l’accuratezza.
L’azienda lavora principalmente con clienti di medie e grandi dimensioni in settori regolamentati in cui l’accuratezza e la conformità dei dati sono indiscutibili. Il fintech è il settore in più rapida crescita di Empromptu, con ulteriori clienti nel settore sanitario e della tecnologia legale. La piattaforma è conforme HIPAA e certificata SOC 2.
"L’intelligenza artificiale aziendale non si interrompe a livello del modello, si interrompe quando dati complessi incontrano utenti reali," Il CEO e co-fondatore estemporaneo Shanea Leven ha detto a VentureBeat in un’intervista esclusiva. "Le pipeline dorate portano l’acquisizione, la preparazione e la gestione dei dati direttamente nel flusso di lavoro dell’applicazione AI in modo che i team possano creare sistemi che funzionino effettivamente in produzione."
Come funzionano le condutture dell’oro?
Le pipeline Gold funzionano come un livello automatizzato tra i dati operativi grezzi e le funzionalità dell’applicazione AI.
Il sistema esegue cinque funzioni di base. Innanzitutto, recupera i dati da qualsiasi fonte, inclusi file, database, API e documenti non strutturati. Quindi elabora questi dati attraverso la revisione e la pulizia automatiche, strutturandoli con definizioni di schemi, tag e arricchimento per colmare le lacune e classificare i record. I controlli di governance e conformità integrati includono audit trail, controlli di accesso e pratiche sulla privacy.
L’approccio tecnico combina la preelaborazione deterministica con la normalizzazione assistita dall’intelligenza artificiale. Invece di codificare ogni trasformazione, il sistema identifica le incoerenze, estrae la struttura mancante e crea classificazioni basate sul contesto del modello. Ogni conversione viene registrata e collegata direttamente alla valutazione AI a valle.
Il ciclo di valutazione è fondamentale per il funzionamento dei gasdotti auriferi. Se la normalizzazione dei dati riduce la precisione a valle, il sistema lo rileva attraverso una valutazione continua rispetto al comportamento di produzione. Secondo Leven, la connessione di feedback tra la preparazione dei dati e le prestazioni del modello distingue le pipeline d’oro dagli strumenti ETL tradizionali.
Le pipeline Gold sono integrate direttamente in Empromptu Builder e vengono eseguite automaticamente come parte della creazione di un’applicazione AI. Dal punto di vista dell’utente, i team stanno sviluppando funzionalità di intelligenza artificiale. Le pipeline dorate garantiscono che i dati che alimentano queste funzionalità siano puliti, strutturati, gestiti e pronti per l’uso in produzione.
Integrità del reporting e integrità dell’inferenza
Leven ritiene che le condutture dell’oro risolvano un problema fondamentalmente diverso rispetto ai tradizionali strumenti ETL come dbt, Fivetran o Databricks.
"Dbt e Fivetran sono ottimizzati per l’integrità del reporting. Le condutture dell’oro sono ottimizzate per l’integrità dell’estrazione," disse Leven. "Gli strumenti ETL tradizionali sono progettati per spostare e trasformare dati strutturati secondo regole predefinite. Presuppongono stabilità dello schema, trasformazioni note e logica relativamente statica."
"Non sostituiamo Dbt o Fivetran; le aziende continueranno a utilizzarli per l’integrità del magazzino e il reporting strutturato." disse Leven. "Le condutture Gold sono più vicine al livello dell’applicazione AI. Risolvono il problema dell’ultimo miglio: come prendere dati operativi imperfetti del mondo reale e renderli disponibili per le funzionalità di intelligenza artificiale senza mesi di deliberazione manuale?"
L’argomento di fiducia a favore della normalizzazione guidata dall’intelligenza artificiale si basa sulla verificabilità e sulla valutazione continua.
"Non è magia incontrollata. Può essere rivisto, controllato e valutato costantemente in base al comportamento di produzione," disse Leven. "Se la normalizzazione riduce l’accuratezza a valle, il ciclo di valutazione lo rileva. La connessione di feedback tra la preparazione dei dati e le prestazioni del modello è qualcosa che le pipeline ETL tradizionali non forniscono."
Distribuzione dei clienti: VOW affronta i dati delle attività ad alto rischio
L’approccio della pipeline dell’oro sta già avendo un impatto nel mondo reale.
Piattaforma per la gestione degli eventi GIURAMENTO gestisce eventi di alto profilo per organizzazioni come FELICE così come molte organizzazioni sportive. Quando GLAAD pianifica un evento, vengono inseriti i dati sugli inviti degli sponsor, sugli acquisti di biglietti, sui tavoli, sui posti a sedere e altro ancora. Il processo avviene rapidamente e la coerenza dei dati è indiscutibile.
"I nostri dati sono più complessi della piattaforma media." Il CEO di VOW Jennifer Brisman ha dichiarato a VentureBeat: "Quando GLAAD pianifica un evento, vengono inseriti i dati sugli inviti degli sponsor, sugli acquisti di biglietti, sui tavoli, sui posti a sedere e altro ancora. E tutto deve avvenire molto rapidamente."
VOW stava scrivendo manualmente gli script regex. Garantire l’accuratezza dei dati è diventato fondamentale quando l’azienda ha deciso di creare una funzionalità di planimetria generata dall’intelligenza artificiale che aggiorna i dati quasi in tempo reale e popola le informazioni sulla piattaforma. Golden Pipelines ha automatizzato il processo di estrazione dei dati dalle planimetrie, che spesso arrivano disordinate, incoerenti e non strutturate, quindi formattandoli e inviandoli senza un grande sforzo manuale da parte del team di ingegneri.
VOW inizialmente ha utilizzato Empromptu per l’analisi della planimetria generata dall’intelligenza artificiale, cosa che né il team AI di Google né quello di Amazon sono riusciti a capire. L’azienda sta ora riscrivendo la sua intera piattaforma sul sistema Empromptu.
Cosa significa questo per le implementazioni di intelligenza artificiale aziendale?
Le pipeline Gold mirano a un modello di consegna specifico: organizzazioni che creano applicazioni IA integrate in cui la preparazione dei dati rappresenta attualmente un collo di bottiglia manuale tra prototipo e produzione.
Questo approccio ha meno senso per i team con organizzazioni di ingegneria dei dati mature che hanno già stabilito processi ETL ottimizzati per domini specifici o per le organizzazioni che sviluppano modelli di intelligenza artificiale autonomi anziché applicazioni integrate.
Il punto decisivo è se la preparazione dei dati ostacola il ritmo dell’intelligenza artificiale nell’organizzazione. Se i data scientist stanno preparando set di dati per esperimenti che i team di ingegneri ricostruiranno successivamente da zero per la produzione, la preparazione integrata dei dati colma questa lacuna.
Se il collo di bottiglia si trova altrove nel ciclo di vita dello sviluppo dell’IA, ciò non accadrà. Il compromesso è la flessibilità dello strumento rispetto all’integrazione della piattaforma. I team che utilizzano le pipeline “golden” si impegnano a adottare un approccio integrato in cui la preparazione dei dati, lo sviluppo e la gestione delle applicazioni AI avvengono su un’unica piattaforma. Le organizzazioni che preferiscono riunire gli strumenti migliori per ciascuna funzione troveranno questo approccio limitante. Il vantaggio di ciò è che vengono eliminati i passaggi tra la preparazione dei dati e lo sviluppo dell’applicazione. Il costo riduce la facoltatività nel modo in cui queste funzioni vengono implementate.














