L’aumento delle spese informatiche in tutti i settori è spesso citato come un ostacolo all’adozione dell’intelligenza artificiale; ma le aziende leader stanno ora scoprendo che il costo non è il vero vincolo. Sfide più difficili (e quelle nella mente di molti leader tecnologici)? Latenza, resilienza e capacità. SU: Non preoccupartiAd esempio, l’intelligenza artificiale aggiunge solo pochi centri per ordine; L’azienda di consegna di cibo e da asporto sta diventando sempre più interessata alla capacità del cloud poiché le richieste stanno crescendo rapidamente. ricorsioneDa parte sua, si concentra sul bilanciamento della formazione e dell’implementazione su piccola e larga scala tramite cluster locali e cloud; Ciò ha dato all’azienda biotecnologica la flessibilità per esperimenti rapidi. Le esperienze di vita reale delle aziende evidenziano una tendenza del settore più ampia: per le aziende che utilizzano l’intelligenza artificiale su larga scala, l’economia non è il fattore decisivo decisivo; La conversazione si è spostata da come pagare l’intelligenza artificiale alla velocità con cui l’intelligenza artificiale può essere implementata e mantenuta. I leader dell’intelligenza artificiale delle due società hanno recentemente incontrato Matt Marshall, CEO e redattore capo di Venturebeat, nell’ambito della serie itinerante AI Impact di VB. Ecco cosa hanno condiviso.
Sono curioso: ripensa le tue ipotesi sulla capacità
Wonder utilizza l’intelligenza artificiale per alimentare qualsiasi cosa, dai consigli alla logistica; ma per ora, secondo il CTO James Chen, l’intelligenza artificiale aggiunge solo pochi centesimi per ordine. Chen ha spiegato che la componente tecnologica per ordinare il cibo costa 14 centesimi e l’intelligenza artificiale costa 2-3 centesimi, ma “aumenta molto rapidamente” fino a 5-8 centesimi. Eppure questo sembra quasi insignificante rispetto ai costi operativi totali. Invece, la principale preoccupazione dell’azienda di intelligenza artificiale nativa al 100% del cloud è stata la capacità a causa dell’aumento della domanda. Chen ha osservato che Wonder è stata costruita con il “presupposto” (dimostrato falso) che ci sarebbe stata “capacità illimitata” in modo che potessero muoversi “super velocemente” e non doversi preoccupare della gestione delle infrastrutture. Ma ha detto che l’azienda è cresciuta molto negli ultimi anni; Di conseguenza, circa sei mesi fa, “abbiamo iniziato a ricevere piccoli segnali da parte dei fornitori di servizi cloud che dicevano: ‘Ehi, potresti dover prendere in considerazione l’idea di andare nella regione due'”, perché le loro strutture stavano esaurendo la capacità di CPU o di archiviazione dati con l’aumento della domanda. È stato “molto scioccante” che siano dovuti passare al piano B prima del previsto. “Naturalmente è una buona pratica essere multiregionali, ma pensavamo forse con due anni di anticipo”, ha detto Chen.
Ciò che non è economicamente possibile (ancora)
Chen ha osservato che Wonder ha creato il proprio modello per massimizzare il tasso di conversione; l’obiettivo è esporre i nuovi ristoranti al maggior numero possibile di clienti interessati. Si tratta di “scenari isolati” in cui i modelli vengono addestrati per essere “molto, molto efficienti e molto veloci” nel tempo. Chen ha osservato che attualmente l’opzione migliore per il caso d’uso di Wonder sono i modelli più grandi. Ma a lungo termine, vogliono passare a modelli più piccoli che siano altamente personalizzati per gli individui in base alla loro cronologia degli acquisti e persino al loro flusso di clic (tramite agenti AI o concierge). “È sicuramente meglio avere questi micromodelli, ma il costo è troppo alto in questo momento”, ha detto Chen. “Se provassi a crearne uno per ogni persona, non sarebbe economicamente fattibile.”
Il budget è un’arte, non una scienza
Wonder offre ai suoi sviluppatori e data scientist il campo di gioco più ampio possibile per sperimentare, e i team interni esaminano i costi di utilizzo per assicurarsi che nessuno stia aprendo un modello e “aumentando enormi calcoli per un conto enorme”, ha affermato Chen. L’azienda sta provando diverse cose per scaricare l’intelligenza artificiale e operare entro i margini. “Ma è difficile stabilire un budget perché non ne hai idea”, ha detto. Una delle sfide è il ritmo dello sviluppo; Quando esce un nuovo modello, “non possiamo semplicemente sederci, vero? Dobbiamo usarlo”. Budgetare per l’economia sconosciuta di un sistema basato su token è “sicuramente arte contro scienza”. Ha spiegato che una componente fondamentale nel ciclo di vita dello sviluppo del software è preservare il contesto quando si utilizzano modelli nativi di grandi dimensioni. Una volta trovato qualcosa che funziona, puoi inserirlo nel “contesto” della tua azienda che potrà essere inviato ad ogni richiesta. Questo è un grosso problema e costa denaro ogni volta. “Oltre il 50%, fino all’80% dei costi, deriva dal reinvio delle stesse informazioni allo stesso motore per ogni richiesta”, ha affermato Chen. In teoria, più fanno, minore è il costo per unità richiesto. “So che quando si verifica una transazione, pagherò X centesimi di tasse su ciascuna, ma non voglio limitarmi a utilizzare la tecnologia per tutte queste idee creative."
‘Momento di rivendicazione’ per la ricorsione
La ricorsione, d’altro canto, si è concentrata sul soddisfare ampie esigenze informatiche attraverso un’infrastruttura ibrida composta da cluster locali e inferenze cloud. Il CTO Ben Mabey ha affermato che mentre inizialmente stava cercando di costruire la propria infrastruttura AI, la società ha dovuto costruirne una propria perché “non c’erano molte buone offerte da parte dei fornitori di servizi cloud”. “Il momento della convalida è stato che avevamo bisogno di più elaborazione e abbiamo esaminato i fornitori di servizi cloud e loro hanno detto: ‘Forse tra un anno o giù di lì.'” Il primo lotto dell’azienda nel 2017 includeva GPU di gioco Nvidia (1080, introdotte nel 2016); da allora hanno aggiunto Nvidia H100 e A100 e utilizzano un cluster Kubernetes che eseguono nel cloud o in locale. Affrontando la questione della longevità, Mabey ha osservato: “Queste GPU da gioco sono in realtà ancora in uso oggi, ed è pazzesco, vero? Il mito secondo cui la durata della GPU è di soli tre anni semplicemente non è vero. Gli A100 sono ancora in cima alla lista, sono il cavallo di battaglia del settore.”
I migliori casi d’uso in locale e nel cloud; differenze di costo
Recentemente, il team di Mabey ha addestrato un modello base sul repository di immagini di Recursion (costituito da petabyte di dati e più di 200 immagini). Questo e altri grandi lavori di formazione richiedevano un “cluster enorme” e installazioni multinodo connesse. “Quando abbiamo bisogno di una rete completamente connessa e dobbiamo accedere alla maggior parte dei nostri dati con un file system altamente parallelo, ci spostiamo in sede”, ha spiegato. D’altro canto, i carichi di lavoro più brevi vengono eseguiti nel cloud. Il metodo di ricorsione consiste nel “precedere” alle GPU e alle unità di elaborazione tensore di Google (TPU); Questo è il processo di interruzione dell’esecuzione delle attività GPU per lavorare su attività con priorità più elevata. “Perché non ci interessa la velocità in alcuni di questi carichi di lavoro di inferenza in cui carichiamo dati biologici, che si tratti di un’immagine, che si tratti di dati di sequenziamento, che si tratti di dati di DNA”, ha spiegato Mabey. “Possiamo dire: ‘Daccelo entro un’ora’, e se il lavoro viene portato a termine, nessun problema.” Mabey ha osservato che, dal punto di vista dei costi, è “prudentemente” 10 volte più economico spostare grandi carichi di lavoro in sede; Per un TCO di cinque anni, questo è la metà del costo. D’altra parte, per esigenze di archiviazione più piccole, il cloud può essere “abbastanza competitivo” in termini di costi. Di conseguenza, Mabey ha invitato i leader tecnologici a fare un passo indietro e decidere se sono veramente disposti a impegnarsi nell’intelligenza artificiale; Le soluzioni economicamente vantaggiose spesso richiedono acquisti pluriennali. “Dal punto di vista psicologico ho visto colleghi che non investono in IT e di conseguenza pagano sempre a richiesta." disse Mabey. "I loro team utilizzano molto meno risorse di calcolo perché non vogliono aumentare la bolletta del cloud. L’innovazione è davvero soffocata da persone che non vogliono bruciare soldi”.















