Gli ingegneri dei dati devono lavorare più velocemente che mai. Gli strumenti basati sull’intelligenza artificiale promettono di automatizzare l’ottimizzazione dei processi, accelerare l’integrazione dei dati e affrontare le difficili attività ripetitive che caratterizzano la professione da decenni.

Ma secondo un nuovo sondaggio condotto su 400 dirigenti senior del settore tecnologico dal MIT Technology Review Insights, Fiocco di neveIl 77% afferma che i carichi di lavoro dei team di ingegneria dei dati stanno diventando più pesanti anziché più leggeri.

È colpevole? Strumenti di intelligenza artificiale destinati a contribuire a creare una nuova serie di problemi.

Sebbene l’83% delle organizzazioni abbia già utilizzato strumenti di ingegneria dei dati basati sull’intelligenza artificiale, il 45% cita la complessità dell’integrazione come la sfida più grande. Il restante 38% lotta con la proliferazione e la frammentazione degli strumenti.

"Molti ingegneri dei dati utilizzano uno strumento per raccogliere dati, uno strumento per elaborare i dati e un altro strumento per eseguire analisi su tali dati." Chris Child, vicepresidente del prodotto per l’ingegneria dei dati di Snowflake, ha dichiarato a VentureBeat. "L’utilizzo di una varietà di strumenti durante questo ciclo di vita dei dati introduce complessità, rischi e una maggiore gestione dell’infrastruttura che gli ingegneri dei dati non possono intraprendere."

Il risultato è un paradosso della produttività. Gli strumenti di intelligenza artificiale rendono più veloci le singole attività, ma la proliferazione di strumenti sconnessi rende la gestione del sistema complessivo più complessa. Per le organizzazioni che si affrettano a implementare l’intelligenza artificiale su larga scala, questa frammentazione rappresenta un collo di bottiglia critico.

Dalle query SQL alle pipeline LLM: evoluzione quotidiana del flusso di lavoro

L’indagine ha rilevato che due anni fa gli ingegneri dei dati hanno dedicato in media il 19% del loro tempo a progetti di intelligenza artificiale. Oggi questa cifra è salita al 37%. I partecipanti si aspettano che questo tasso raggiunga il 61% entro due anni.

Ma come si concretizza questo cambiamento nella pratica?

Il bambino ha fatto un esempio concreto. In precedenza, se il CFO di un’azienda aveva bisogno di effettuare stime previsionali, avrebbe sfruttato il team di ingegneria dei dati per creare un sistema che correlasse dati non strutturati, come i contratti dei fornitori, con dati strutturati, come le cifre sui ricavi, in un dashboard statico. Collegare questi due mondi di tipi di dati diversi era estremamente dispendioso in termini di tempo e denaro; Richiedeva agli avvocati di leggere manualmente ogni documento per individuare termini contrattuali importanti e di caricare tali informazioni in un database.

Oggi lo stesso flusso di lavoro appare radicalmente diverso.

"Gli ingegneri dei dati possono utilizzare uno strumento come Snowflake Openflow per portare senza problemi contratti PDF non strutturati che vivono in una fonte come Box in un’unica piattaforma come Snowflake, insieme a dati finanziari strutturati, in modo che i dati diventino accessibili a Masters." Disse il bambino. "Le attività che prima richiedevano ore di lavoro manuale ora vengono eseguite quasi istantaneamente."

Il cambiamento non è solo una questione di velocità. Dipende dalla natura del lavoro.

Due anni fa, la tipica giornata di un ingegnere dei dati consisteva nel configurare cluster, scrivere trasformazioni SQL e garantire che i dati fossero pronti per gli analisti umani. Oggi, è più probabile che lo stesso ingegnere esegua il debug delle pipeline di trasformazione supportate da Masters e crei regole di governance per i flussi di lavoro del modello AI.

"La competenza principale degli ingegneri dei dati non è solo la codifica," Disse il bambino. "Organizza la base di dati e fornisce fiducia, contesto e governance in modo che i risultati dell’intelligenza artificiale siano affidabili."

Problema dello stack di strumenti: quando l’aiuto diventa un ostacolo

È qui che le imprese si bloccano.

La promessa degli strumenti dati basati sull’intelligenza artificiale è convincente: automatizzare l’ottimizzazione della pipeline, accelerare il debug, semplificare l’integrazione. Ma in pratica, molte organizzazioni stanno scoprendo che ogni nuovo strumento di intelligenza artificiale aggiunto crea i propri problemi di integrazione.

Lo dimostrano anche i dati dell’indagine. Sebbene l’intelligenza artificiale stia portando a miglioramenti nella quantità di output (aumento del 74% dei report) e nella qualità (aumento del 77% dei report), questi guadagni sono controbilanciati dai costi operativi legati alla gestione degli strumenti disconnessi.

"L’altro problema che riscontriamo è che gli strumenti di intelligenza artificiale spesso semplificano la creazione di un prototipo combinando varie fonti di dati in un LLM standard." Disse il bambino. "Ma quando vuoi metterlo in produzione, ti rendi conto che non puoi accedere ai dati e non sai di quale gestione hai bisogno, quindi diventa difficile fornire lo strumento ai tuoi utenti."

Child ha presentato un quadro chiaro per i decisori tecnici che attualmente valutano lo stack di ingegneria dei dati.

"I team dovrebbero dare priorità agli strumenti di intelligenza artificiale che accelerano la produttività eliminando al tempo stesso le infrastrutture e la complessità operativa." ha detto. "Ciò consente agli ingegneri di spostare la propria attenzione dalla gestione del “lavoro di integrazione” dell’ingegneria dei dati e avvicinarsi ai risultati aziendali."

Finestra di implementazione dell’IA dell’agenzia: 12 mesi per far girare la palla

Dal sondaggio è emerso che il 54% delle organizzazioni prevede di implementare l’AI entro i prossimi 12 mesi. L’agente AI si riferisce ad agenti autonomi che possono prendere decisioni e agire senza l’intervento umano. Il restante 20% ha già iniziato a farlo.

Per i team di ingegneria dei dati, l’intelligenza artificiale dell’agenzia rappresenta sia un’enorme opportunità che un rischio significativo. Se eseguiti correttamente, gli agenti autonomi possono eseguire attività ripetitive come il rilevamento della deriva dello schema o il debug degli errori di conversione. Se eseguiti in modo errato, possono corrompere i set di dati o rivelare informazioni sensibili.

"I data engineer devono dare priorità all’ottimizzazione e al monitoraggio della pipeline per implementare realmente l’intelligenza artificiale degli agenti su larga scala." Disse il bambino. "Si tratta di un punto di partenza a basso rischio e ad alto rendimento che, se eseguito correttamente, consentirà all’intelligenza artificiale dell’agenzia di automatizzare in modo sicuro attività ripetitive come il rilevamento della deriva dello schema o il debug degli errori di conversione."

Ma Child insisteva che prima si dovessero installare i guardrail.

"Prima che le organizzazioni consentano agli agenti di accedere ai dati di produzione, devono essere adottate due misure di salvaguardia: una forte governance e monitoraggio della provenienza e una supervisione umana attiva." ha detto. "Gli agenti devono ereditare autorizzazioni granulari e operare all’interno di un quadro di governance stabilito."

I rischi di saltare questi passaggi sono reali. "Senza un’adeguata gestione della provenienza o degli accessi, un agente potrebbe corrompere involontariamente i set di dati o rivelare informazioni sensibili." Il ragazzo ha avvertito.

Il divario di percezione che costa il successo dell’intelligenza artificiale alle aziende

Forse il risultato più sorprendente dell’indagine è la disconnessione tra i dirigenti senior.

Mentre l’80% dei chief data officer e l’82% dei chief AI officer ritengono che i data engineer siano parte integrante del successo aziendale, solo il 55% dei CIO condivide questo punto di vista.

"Ciò dimostra che i leader data-forward comprendono il valore strategico dell’ingegneria dei dati, ma dobbiamo lavorare di più per aiutare il resto dei dirigenti a comprendere che investire in una base dati unificata e scalabile e nelle persone che contribuiscono a gestirla è un investimento nel successo dell’intelligenza artificiale, non solo nelle operazioni IT." Disse il bambino.

Questa differenza di percezione ha conseguenze reali.

I data engineer delle organizzazioni intervistate sono già influenti nelle decisioni riguardanti la fattibilità di un caso d’uso dell’intelligenza artificiale (53% degli intervistati) e l’uso dei modelli di intelligenza artificiale da parte delle unità aziendali (56%). Ma se i CIO non riconoscono i data engineer come partner strategici, è improbabile che diano a questi team le risorse, l’autorità o il posto al tavolo di cui hanno bisogno per evitare i problemi di implementazione e integrazione degli strumenti identificati nel sondaggio.

Questo divario sembra essere legato alla visibilità. I Chief Data Officer e i Chief AI Officer lavorano ogni giorno direttamente con i team di ingegneria dei dati e comprendono la complessità di ciò che gestiscono. I CIO che si concentrano più in generale sull’infrastruttura e sulle operazioni potrebbero non vedere il lavoro di architettura strategica che i data engineer stanno sempre più svolgendo.

Questa disconnessione illustra anche il modo in cui i diversi dirigenti valutano le sfide che devono affrontare i team di ingegneria dei dati. I dirigenti dell’IA sono molto più propensi dei CIO a concordare sul fatto che i carichi di lavoro dei data engineer stanno diventando più pesanti (93% contro 75%). Sono anche più propensi a riconoscere l’impatto che i data engineer hanno sulla strategia complessiva dell’IA.

Cosa devono imparare ora gli ingegneri dei dati

L’indagine ha identificato tre competenze critiche che gli ingegneri dei dati devono sviluppare: competenza nell’intelligenza artificiale, senso degli affari e capacità di comunicazione.

Per un’organizzazione con un team di ingegneria dei dati composto da 20 persone, ciò rappresenta una sfida pratica. Stai assumendo per queste competenze, formando ingegneri esistenti o ristrutturando il team? La risposta del ragazzo suggeriva che il senso degli affari dovesse essere la priorità.

"La competenza più importante per gli ingegneri dei dati in questo momento è capire cosa è fondamentale per gli utenti aziendali finali e dare priorità a come possono rispondere a queste domande in modo più semplice e veloce." ha detto.

Lezione per le imprese: il contesto aziendale è più importante dell’aggiunta di certificazioni tecniche. Child ha sottolineato che comprendere l’impatto sul business del “perché” gli ingegneri dei dati eseguono determinate attività consentirà loro di anticipare meglio le esigenze dei clienti e fornire valore all’azienda più rapidamente.

"Le organizzazioni con team di ingegneria dei dati che danno priorità a questo approccio aziendale si differenzieranno dalla concorrenza."

Per le organizzazioni che desiderano essere leader nel campo dell’intelligenza artificiale, la soluzione alla crisi di produttività dell’ingegneria dei dati non è rappresentata da ulteriori strumenti di intelligenza artificiale. Le organizzazioni che si muoveranno più velocemente stanno ora consolidando i propri stack di strumenti, implementando l’infrastruttura di governance prima che gli agenti entrino in produzione ed elevando gli ingegneri dei dati da personale di supporto ad architetti strategici.

La finestra è stretta. Dato che il 54% pianifica l’implementazione dell’IA nelle agenzie entro 12 mesi e gli ingegneri dei dati prevedono di dedicare il 61% del proprio tempo a progetti AI entro due anni, i team che non affrontano le lacune nell’implementazione degli strumenti e nella governance troveranno le loro iniziative AI bloccate in modalità pilota permanente.

Collegamento alla fonte