Una rivoluzione silenziosa sta rimodellando l’ingegneria dei dati aziendali. Gli sviluppatori Python stanno creando pipeline di produzione in pochi minuti utilizzando strumenti di cui interi team di esperti avrebbero avuto bisogno solo pochi mesi fa.
catalizzatore dltUna libreria Python open source che automatizza attività complesse di ingegneria dei dati. Lo strumento ha raggiunto 3 milioni di download mensili e ha alimentato flussi di lavoro di dati per più di 5.000 aziende in settori regolamentati tra cui finanza, sanità e produzione. La tecnologia ottiene un altro solido voto di fiducia oggi, poiché dltHub, la società con sede a Berlino dietro la libreria dlt open source, ha raccolto 8 milioni di dollari in finanziamenti iniziali guidati da Bessemer Venture Partners.
Non sono solo i numeri di adozione a renderlo importante. Questo è il modo in cui gli sviluppatori utilizzano lo strumento insieme agli assistenti di codifica AI per eseguire attività che in precedenza richiedevano ingegneri dell’infrastruttura, specialisti DevOps e personale di guardia.
L’azienda sta costruendo una piattaforma ospitata sul cloud che estende la sua libreria open source in una soluzione end-to-end completa. La piattaforma consentirà agli sviluppatori di distribuire pipeline, trasformazioni e notebook con un unico comando senza preoccuparsi dell’infrastruttura. Ciò rappresenta un passaggio fondamentale dall’ingegneria dei dati che richiede team specializzati all’essere accessibile a qualsiasi sviluppatore Python.
"Qualsiasi sviluppatore Python dovrebbe essere in grado di avvicinare gli utenti aziendali a dati nuovi e affidabili," Matthaus Krzykowski, co-fondatore e CEO di dltHub, ha detto a VentureBeat in un’intervista esclusiva. "La nostra missione è rendere l’ingegneria dei dati accessibile, collaborativa e fluida quanto scrivere Python stesso."
Da SQL all’ingegneria dei dati specifica per Python
Il problema che l’azienda stava cercando di risolvere emergeva dalle frustrazioni del mondo reale.
Una delle principali frustrazioni deriva da un conflitto fondamentale tra il modo in cui diverse generazioni di sviluppatori lavorano con i dati. Krzykowski ha affermato che esiste una generazione di sviluppatori basata sulla tecnologia SQL e dei database relazionali. D’altra parte, c’è una generazione di sviluppatori che sta costruendo agenti AI con Python.
Questo divario riflette sfide tecniche più profonde. L’ingegneria dei dati basata su SQL vincola i team a piattaforme specifiche e richiede una vasta conoscenza dell’infrastruttura. Gli sviluppatori Python che lavorano sull’intelligenza artificiale necessitano di strumenti leggeri e indipendenti dalla piattaforma che funzionino su laptop e si integrino con gli assistenti di codifica LLM.
La libreria dlt modifica questa equazione automatizzando complesse attività di ingegneria dei dati in un semplice codice Python.
"Se sai cos’è una funzione in Python, cos’è una lista, una risorsa e una risorsa, allora puoi scrivere questo codice molto dichiarativo e molto semplice," Krzykowski ha spiegato.
Questa importante innovazione tecnica gestisce automaticamente lo sviluppo dello schema. Le pipeline tradizionali si interrompono quando le origini dati modificano i formati di output.
"DLT dispone di meccanismi per risolvere automaticamente questi problemi." Thierry Jean, l’ingegnere fondatore di dltHub, ha dichiarato a VentureBeat: "Quindi passerai i dati e dirai: avvisami se qualcosa cambia a monte, oppure rendilo sufficientemente flessibile e modifica i dati e l’obiettivo per adattarli."
Esperienza di sviluppo nel mondo reale
Hoyt Emerson, consulente dati e creatore di contenuti presso The Full Data Stack, ha recentemente adottato questo strumento per un compito difficile da risolvere.
Aveva bisogno di spostare i dati da Google Cloud Storage a più destinazioni, tra cui Amazon S3 e il data warehouse. Gli approcci tradizionali richiedono informazioni specifiche della piattaforma per ciascuna destinazione. Emerson ha detto a VentureBeat che ciò che voleva veramente era un modo molto più leggero e indipendente dalla piattaforma per inviare dati da un punto a un altro.
"È stato allora che DLT mi ha regalato quel momento, ahah," Ha detto Emerson.
Utilizzando la documentazione della biblioteca, ha completato l’intero processo in cinque minuti; Ciò ha reso facile iniziare rapidamente e senza problemi.
Il processo diventa ancora più potente se combinato con gli assistenti di codifica AI. Emerson ha notato che utilizza i principi di codifica dell’intelligenza artificiale dell’agenzia e si rende conto che i documenti dlt possono essere inviati come contesto a un master per accelerare e automatizzare il lavoro sui dati. Utilizzando la documentazione come contesto, Emerson è stata in grado di creare modelli riutilizzabili per progetti futuri e utilizzare gli assistenti IA per creare configurazioni di distribuzione.
"È estremamente adatto ai laureati perché è così ben documentato." ha detto.
LLM-Modello di sviluppo indigeno
Questa combinazione di strumenti ben documentati e supporto dell’intelligenza artificiale rappresenta un nuovo modello di sviluppo. L’azienda lo ha ottimizzato appositamente per quello che dicono "Modalità YOLO" sviluppo, in cui gli sviluppatori copiano i messaggi di errore e li incollano negli assistenti di codifica AI.
"La maggior parte di queste persone stanno letteralmente semplicemente copiando e incollando messaggi di errore e cercando di capire gli editor di codice," Krzykowski ha dichiarato: L’azienda prende questo comportamento abbastanza sul serio e sta affrontando i problemi, soprattutto nei flussi di lavoro basati sull’intelligenza artificiale.
I risultati mostrano l’efficacia dell’approccio. Solo nel mese di settembre, gli utenti hanno creato più di 50.000 connettori personalizzati utilizzando la libreria. Ciò rappresenta un aumento di 20 volte rispetto a gennaio, guidato in gran parte dallo sviluppo supportato da Masters.
Architettura tecnica adatta alla scala aziendale
La filosofia di progettazione Dlt dà priorità all’interoperabilità rispetto alla dipendenza dalla piattaforma. Lo strumento può essere distribuito ovunque, da AWS Lambda agli stack di dati aziendali esistenti. Si integra con piattaforme come Snowflake mantenendo la flessibilità necessaria per lavorare con qualsiasi target.
"Crediamo sempre che la DLT debba essere interoperabile e modulare." Krzykowski ha spiegato. "Può essere distribuito ovunque. Potrebbe essere in Lambda. Spesso diventa parte delle infrastrutture dati di altre persone."
Le capacità tecniche principali includono:
-
Sviluppo automatico di schemi: Gestisce le modifiche ai dati upstream senza interrompere le pipeline o richiedere un intervento manuale.
-
Caricamento incrementale: elabora solo i record nuovi o modificati, riducendo così il carico e i costi computazionali.
-
Distribuzione indipendente dalla piattaforma: funziona senza modifiche ai provider cloud e all’infrastruttura locale.
-
Documentazione ottimizzata per la Laurea Magistrale: configurato specificamente per l’utilizzo dell’assistente AI, consente una rapida risoluzione dei problemi e la creazione di modelli.
La piattaforma attualmente supporta più di 4.600 origini dati API REST, con una continua espansione guidata da connettori creati dagli utenti.
Competere con i giganti ETL con un approccio code-first
Il panorama dell’ingegneria dei dati è diviso in diversi campi, ciascuno dei quali soddisfa diverse esigenze organizzative e preferenze degli sviluppatori.
Piattaforme ETL tradizionali Informatica e Talend domina gli ambienti aziendali con strumenti basati su GUI che richiedono una formazione specifica ma offrono funzionalità di governance complete.
Piattaforme SaaS più recenti cinquetran Hanno guadagnato terreno enfatizzando i connettori precostruiti e l’infrastruttura gestita, riducendo i costi operativi e creando vincoli ai fornitori.
La libreria dlt open source occupa una posizione fondamentalmente diversa come infrastruttura nativa LLM code-first che gli sviluppatori possono estendere e personalizzare.
"Crediamo sempre che la DLT debba essere interoperabile e modulare." Krzykowski ha spiegato. "Può essere distribuito ovunque. Potrebbe essere in Lambda. Spesso diventa parte delle infrastrutture dati di altre persone."
Questo posizionamento riflette uno spostamento più ampio verso quello che il settore chiama uno stack di dati componibile, in cui le aziende costruiscono infrastrutture da componenti interoperabili piuttosto che da piattaforme monolitiche.
Ancora più importante, l’intersezione con l’intelligenza artificiale crea nuove dinamiche di mercato.
"I master non sostituiscono gli ingegneri dei dati," Krzykowski ha detto: "Ma stanno espandendo radicalmente la loro portata e produttività."
Cosa significa questo per i leader dei dati aziendali?
Per le organizzazioni che cercano di essere leader nelle operazioni basate sull’intelligenza artificiale, questo sviluppo rappresenta un’opportunità per ripensare radicalmente le proprie strategie di ingegneria dei dati.
I vantaggi tattici immediati sono chiari. Invece di assumere team esperti di ingegneria dei dati, le organizzazioni possono sfruttare gli sviluppatori Python esistenti. Le organizzazioni che adattano gli approcci di teaming e marching per trarre vantaggio da questa tendenza possono ottenere vantaggi significativi in termini di costi e agilità rispetto ai concorrenti che ancora fanno affidamento sulla tradizionale ingegneria dei dati ad alta intensità di squadra.
La domanda non è se questo passaggio verso un’ingegneria dei dati democratizzata avverrà. È la velocità con cui le aziende si adattano per trarne vantaggio.















