I modelli di intelligenza artificiale sono validi quanto lo sono i dati su cui sono addestrati. Questi dati spesso devono essere contrassegnati, organizzati e organizzati in modo che i modelli possano apprendere in modo efficace.
Uno dei grandi anelli mancanti nell’ecosistema dell’intelligenza artificiale è stata la disponibilità di un set di dati multimodale ampio, di alta qualità, open source. Oggi, la situazione cambia con il lancio del set di dati EMM-1, che comprende 1 miliardo di coppie di dati e 100 milioni di set di dati in 5 modalità: testo, immagini, video, audio e nuvole di punti 3D. I set di dati multimodali combinano diversi tipi di dati che i sistemi di intelligenza artificiale possono elaborare insieme. Ciò riflette il modo in cui gli esseri umani percepiscono il mondo utilizzando più sensi contemporaneamente. Questi set di dati consentono ai sistemi di intelligenza artificiale di fare inferenze più ricche comprendendo le relazioni tra i tipi di dati anziché elaborare ciascun metodo separatamente.
Sviluppato da EMM-1 etichettatura dei dati venditore della piattaforma Salva. La piattaforma dell’azienda consente ai team di organizzare, taggare e gestire i dati di formazione su larga scala utilizzando flussi di lavoro automatizzati e human-in-the-loop. Oltre al nuovo modello, Encord ha sviluppato la metodologia di formazione EBind, che dà priorità alla qualità dei dati rispetto alla scala computazionale grezza. Questo approccio ha consentito a un modello compatto con 1,8 miliardi di parametri di eguagliare le prestazioni di modelli fino a 17 volte più grandi, riducendo da giorni a ore i tempi di addestramento su una singola GPU invece che su cluster di GPU.
"Il grande trucco per noi è stato concentrarci davvero sui dati e renderli di altissima qualità." Il co-fondatore e CEO di Encord Eric Landau ha detto a VentureBeat in un’intervista esclusiva. "Siamo riusciti a ottenere lo stesso livello di prestazioni di modelli 20 volte più grandi, non perché fossimo molto intelligenti con l’architettura, ma perché l’abbiamo addestrata con dati davvero buoni in generale."
Vantaggio in termini di qualità dei dati
Secondo Landau, il set di dati di Encord è 100 volte più grande del successivo set di dati multimodale comparabile. Funziona su scala di petabyte, con terabyte di dati grezzi e oltre 1 milione di descrizioni umane.
Tuttavia, la scala da sola non spiega i miglioramenti in termini di prestazioni. L’innovazione tecnica si concentra su ciò che Landau chiama soluzioni. "sottovalutato" Il problema nell’addestramento all’intelligenza artificiale: perdita di dati tra set di addestramento e set di valutazione.
"Il problema delle perdite è stato qualcosa su cui abbiamo dedicato molto tempo." Landau spiegò. "In molti set di dati esiste una qualche forma di perdita tra i diversi sottoinsiemi di dati. Le perdite aumentano effettivamente i risultati. Rende le tue recensioni migliori. Ma questo è un tema su cui siamo molto meticolosi."
La perdita di dati si verifica quando le informazioni provenienti dai dati di test compaiono inavvertitamente nei dati di training, causando un aumento artificiale delle metriche delle prestazioni del modello. Molti set di dati di riferimento soffrono di questa contaminazione. Encord ha utilizzato tecniche di clustering gerarchico per garantire una separazione pulita mantenendo al tempo stesso una distribuzione rappresentativa tra i tipi di dati. L’azienda ha inoltre utilizzato il clustering per affrontare i pregiudizi e garantire una rappresentanza diversificata.
In che modo eBind aumenta la produttività?
I miglioramenti della qualità dei dati funzionano insieme a un approccio architetturale progettato per l’efficienza
EBind di Encord estende l’approccio CLIP (Comparative Language-Image Pretraining) (originariamente sviluppato da OpenAI) da due a cinque metodi. CLIP consente attività come la ricerca visiva utilizzando descrizioni testuali imparando ad associare immagini e testo in uno spazio di visualizzazione condiviso.
Mentre CLIP impara ad associare immagini e testo in uno spazio nascosto condiviso, EBind fa lo stesso con immagini, testo, audio, nuvole di punti 3D e video.
La selezione dell’architettura dà priorità all’efficienza dei parametri. Invece di implementare modelli personalizzati separati per ciascuna coppia di modalità, eBind utilizza un unico modello base con un codificatore per ciascuna modalità.
"Altre metodologie utilizzano una serie di modelli diversi e si orientano verso il modello migliore per adattarsi a queste coppie, quindi tendono ad esplodere in numero di parametri," Ha detto Landau. "Abbiamo scoperto che potremmo utilizzare un unico modello base e addestrare un solo codificatore per metodo, mantenendolo molto semplice ed efficiente in termini di parametri se alimentassimo l’architettura complessiva con dati veramente validi."
Concorrenti modello emergenti OmniBindÈ un concorrente molto più grande nello spazio multimodale, ma richiede risorse computazionali significativamente inferiori sia per l’addestramento che per l’inferenza. Ciò rende EBind implementabile in ambienti con risorse limitate, compresi i dispositivi edge per sistemi robotici e autonomi.
Valore aziendale di un set di dati multimodale
I modelli multimodali consentono casi d’uso aziendali che abbracciano diversi tipi di dati.
La maggior parte delle organizzazioni archivia diversi tipi di dati in sistemi separati: documenti in piattaforme di gestione dei contenuti, registrazioni audio in strumenti di comunicazione, video di formazione in sistemi di gestione dell’apprendimento e dati strutturati in database. I modelli multimodali possono cercare e recuperare tutti questi elementi simultaneamente.
"Le aziende dispongono di tutti i tipi di dati diversi. Non hanno solo documenti. Sono disponibili registrazioni audio, video di formazione, file CSV," Ha detto Landau. "Supponiamo che tu sia un avvocato e che tu abbia un fascicolo che include documenti e registrazioni, nonché prove video, ed è tutto sparpagliato in più silos di dati. Puoi utilizzare EBind per selezionare tutti i dati rilevanti e cercare e far emergere i dati giusti molto più velocemente di prima."
Lo stesso principio vale per i verticali. Gli operatori sanitari possono collegare i dati di imaging dei pazienti alle note cliniche e all’audio diagnostico. Le società di servizi finanziari possono collegare i record delle transazioni ai record delle chiamate di conformità e alle comunicazioni dei clienti. Le operazioni di produzione possono collegare i dati dei sensori delle apparecchiature ai registri video di manutenzione e ai rapporti di ispezione.
Oltre agli ambienti d’ufficio, l’intelligenza artificiale fisica rappresenta un’altra frontiera. Landau ha enfatizzato i veicoli autonomi che utilizzano sia la percezione visiva che segnali uditivi come le sirene di emergenza. Combinando il riconoscimento visivo con il feedback audio e la consapevolezza spaziale nella produzione e nello stoccaggio, i robot possono operare in modo più sicuro ed efficace rispetto ai soli sistemi visivi.
Caso d’uso aziendale: estensione della visione artificiale al contesto multimodale
Cattura l’intelligenza artificialeun cliente Encord, mostra come le aziende intendono utilizzare il set di dati per applicazioni aziendali specifiche. L’avvio fornisce la verifica delle immagini sul dispositivo per le app mobili, verificando l’autenticità, la compatibilità e la qualità delle foto in tempo reale prima di caricarle. L’azienda collabora con fornitori di mobilità partner e società di consegna come Lime, che scatta miliardi di foto di pacchi.
Captur AI elabora oltre 100 milioni di immagini sul dispositivo ed è specializzato nell’analisi di modelli fino a 6-10 megabyte in modo che possano essere eseguiti su smartphone senza connessione cloud. Ma il CEO Charlotte Bax ritiene che le capacità multimodali siano fondamentali per espandersi in casi d’uso di maggior valore.
"Il mercato è molto grande per noi. Invii foto per la restituzione e la vendita al dettaglio. Si inviano foto alle compagnie assicurative per i danni. Quando pubblichi qualcosa su eBay pubblichi foto," Bax ha detto a VentureBeat in un’intervista esclusiva. "Alcuni di questi casi d’uso comportano rischi molto elevati o hanno un valore elevato se qualcosa va storto (come l’assicurazione). L’immagine cattura solo parte del contesto e l’audio può essere un segnale importante."
Bax ha citato le ispezioni digitali dei veicoli come un ottimo esempio di ciò. Quando i clienti fotografano i danni al veicolo per richieste di risarcimento assicurativo, spesso descrivono verbalmente cosa è successo quando hanno scattato le immagini. Il contesto vocale può aumentare significativamente l’accuratezza delle richieste e ridurre le frodi.
"Mentre lo fai, la maggior parte delle volte il cliente spiega cosa è realmente successo." Ha detto male. "Alcuni dei nostri potenziali clienti InsurTech ci hanno chiesto se possiamo effettivamente realizzare anche l’audio, perché aggiunge questo ulteriore contesto per l’utente che invia la richiesta."
La sfida è preservare il vantaggio principale di Captur AI: eseguire i modelli in modo efficiente sul dispositivo anziché richiedere l’elaborazione nel cloud. L’azienda prevede di utilizzare il set di dati di Encord per addestrare modelli multimodali compatti che mantengano funzionalità offline in tempo reale aggiungendo contesto audio e immagini sequenziali.
"La cosa più importante che puoi fare è cercare di ottenere quanto più contesto possibile." Bax ha detto. "Riuscirai a ottenere Master abbastanza piccoli da poter essere eseguiti su un dispositivo nei prossimi tre anni o puoi eseguire modelli multimodali sul dispositivo? Una frontiera interessante è risolvere la qualità dei dati prima di caricare le immagini."
Cosa significa questo per le imprese?
I risultati di Encord mettono in discussione le ipotesi fondamentali sullo sviluppo dell’intelligenza artificiale e suggeriscono che il prossimo campo di battaglia competitivo potrebbe essere rappresentato dalle operazioni sui dati piuttosto che dalla scala delle infrastrutture.
I set di dati multimodali sbloccano nuove funzionalità. La capacità di addestrare modelli in grado di comprendere le relazioni tra tipi di dati apre casi d’uso che i sistemi monomodali non possono affrontare.
Le operazioni sui dati meritano lo stesso investimento dell’infrastruttura informatica. Il guadagno di 17 volte in termini di efficienza dei parametri derivante da una migliore ottimizzazione dei dati rappresenta ordini di grandezza in termini di risparmio sui costi. Le organizzazioni che considerano la qualità dei dati come un ripensamento quando scaricano le risorse sui cluster GPU potrebbero ottimizzare per la variabile sbagliata.
La valutazione di Landau riflette un cambiamento strategico per le aziende che costruiscono sistemi di intelligenza artificiale multimodali.
"Siamo riusciti a raggiungere lo stesso livello di prestazioni di modelli molto più grandi; non perché siamo troppo intelligenti riguardo all’architettura, ma perché la addestriamo con dati davvero buoni in generale." ha detto.















