L’ultimo grande titolo nel campo dell’intelligenza artificiale non è la dimensione del modello o la multimodalità, ma la crisi di capacità. Alla recente tappa AI Impact di VentureBeat a New York, il direttore dell’intelligenza artificiale Val Bercovici WEKASi unisce al CEO di VentureBeat Matt Marshall per discutere di cosa sia realmente necessario per scalare l’intelligenza artificiale di fronte alla crescente latenza, al cloud lock-in e ai costi incontrollati.
Bercovici sostiene che queste forze stanno spingendo l’intelligenza artificiale verso una propria versione di prezzi elevati. Uber ha introdotto i prezzi premium, portando per la prima volta le tariffe di mercato in tempo reale nel ridesharing. Bercovici sostiene che l’intelligenza artificiale si sta ora muovendo verso lo stesso calcolo economico – in particolare per l’inferenza – poiché l’attenzione si sposta sulla redditività.
"Oggi non abbiamo tassi di mercato reali. Abbiamo tassi di sussidio. Ciò è stato necessario per consentire molte delle innovazioni che stanno avendo luogo, ma prima o poi – dati i trilioni di dollari di capex e le limitate spese operative energetiche di cui stiamo parlando ora – emergeranno i veri tassi di mercato; forse l’anno prossimo, sicuramente entro il 2027," ha detto. "Quando lo faranno, il settore cambierà radicalmente e stimolerà un’attenzione ancora più profonda e precisa all’efficienza."
L’economia del boom simbolico
"La prima regola è che questo è un settore dove c’è di più. Più token equivalgono in modo esponenziale a un maggiore valore aziendale," Bercovici ha detto.
Ma finora nessuno ha capito come renderlo sostenibile. La classica triade aziendale (costo, qualità e velocità) significa latenza, costo e accuratezza (specialmente nei token di output) nell’intelligenza artificiale. E la precisione è indiscutibile. Ciò vale non solo per le interazioni dei consumatori con intermediari come ChatGPT, ma anche per casi d’uso ad alto rischio come la scoperta di farmaci e i flussi di lavoro in settori fortemente regolamentati come i servizi finanziari e l’assistenza sanitaria.
"Questo è indiscutibile." Bercovici ha detto. "È necessario disporre di una quantità elevata di monete per un’elevata precisione di inferenza, soprattutto quando si aggiunge sicurezza al mix, ai modelli di ringhiera e ai modelli di qualità. Quindi comprometti la latenza e i costi. Qui è dove hai una certa flessibilità. Se riesci a tollerare un’elevata latenza e talvolta puoi farlo per i casi d’uso dei consumatori, puoi ottenerlo a un costo inferiore con livelli gratuiti e livelli cost-plus inferiori."
Ma la latenza è un collo di bottiglia critico per gli agenti IA. “Questi agenti non operano più in alcun modo. O c’è uno sciame di agenti oppure non c’è alcuna attività degli agenti”, ha detto Bercovici.
In uno sciame, gruppi di agenti lavorano in parallelo per completare un obiettivo più ampio. Il modello più intelligente, lo strumento di orchestrazione, si trova al centro e determina le attività secondarie e i requisiti chiave: scelte architetturali, esecuzione nel cloud e in locale, vincoli prestazionali e considerazioni sulla sicurezza. Lo sciame esegue quindi tutte le attività secondarie, eseguendo effettivamente più utenti di inferenza simultanei in sessioni parallele. Infine, i modelli valutativi decidono se l’attività complessiva è stata completata con successo.
“Questi sciami attraversano centinaia, se non migliaia, di allarmi e risposte, chiamati turni multipli, finché lo sciame non si raduna per una risposta”, ha detto Bercovici.
“E se si ottiene un ritardo cumulativo su quelle migliaia di turni, ciò diventa insostenibile. Quindi il ritardo è davvero significativo. Ciò significa spesso dover pagare un prezzo sovvenzionato elevato oggi, ed è ciò che diminuirà nel tempo.”
L’apprendimento per rinforzo come nuovo paradigma
Bercovici ha spiegato che i dirigenti non erano così performanti fino a maggio di quest’anno. Successivamente, le finestre di contesto sono diventate sufficientemente grandi e le GPU sono diventate sufficientemente disponibili per supportare agenti in grado di completare attività avanzate come la scrittura di software affidabile. Si stima attualmente che in alcuni casi il 90% del software venga creato da intermediari di codifica. Bercovici ha osservato che ora che gli agenti hanno sostanzialmente raggiunto la maggiore età, l’apprendimento per rinforzo è un nuovo argomento di discussione tra i data scientist di alcuni dei principali laboratori come OpenAI, Anthropic e Gemini, che lo vedono come un percorso critico verso l’innovazione dell’IA.
"L’attuale stagione dell’intelligenza artificiale è quella dell’apprendimento per rinforzo. “Unisce molti degli elementi di formazione e inferenza in un unico flusso di lavoro unificato”, ha affermato Bercovici. “Questa è l’ultima e più grande legge di ridimensionamento verso questo traguardo leggendario che tutti stiamo cercando di raggiungere, chiamato AGI – intelligenza generale artificiale”, ha aggiunto. "Ciò che mi affascina è che per poter ripetere queste migliaia di cicli di apprendimento di rinforzo e far avanzare l’intero campo, è necessario applicare tutte le migliori pratiche su come addestrare i modelli, nonché le migliori pratiche su come estrarre i modelli."
Il percorso verso la redditività dell’IA
Bercovici ha affermato che non esiste una risposta unica quando si tratta di creare una base infrastrutturale che renda redditizia l’intelligenza artificiale perché è ancora un campo emergente. Non esiste un approccio con lo stampino. Per alcuni, in particolare per i principali modellisti, lavorare completamente internamente può essere la scelta giusta; ma passare al cloud-native o operare in un ambiente ibrido può essere un percorso migliore per le organizzazioni che desiderano innovare in modo agile e reattivo. Qualunque sia il percorso scelto inizialmente, le organizzazioni dovranno adattare le proprie strategie di infrastruttura AI man mano che le loro esigenze aziendali si evolvono.
"Ciò che è di fondamentale importanza qui è l’economia unitaria," ha detto Bercovici. "Dal momento che l’economia dell’IA è sovvenzionata, possiamo sicuramente dire che siamo in un boom, o addirittura in una bolla, in alcuni casi. Ma questo non significa che se il prezzo dei token aumenta, smetterai di usarli. Sarai molto preciso nel modo in cui li usi."
Bercovici conclude che i leader dovrebbero concentrarsi meno sui prezzi dei singoli token e più sull’economia a livello di transazione, dove l’efficienza e l’impatto diventano visibili.
Bercovici ha affermato che la domanda più importante che le aziende e le società di intelligenza artificiale devono porsi è: “Qual è il costo reale per l’economia della mia unità?”
Da questo punto di vista, la strada da seguire non è fare meno con l’intelligenza artificiale, ma farlo in modo più intelligente ed efficiente su larga scala.















