Da chilometri di distanza nel deserto, la Grande Piramide sembra una geometria perfetta e liscia; Un elegante triangolo che punta verso le stelle. Ma quando ti trovi sulla base, l’illusione della levigatezza scompare. Vedi enormi blocchi frastagliati di calcare. Questa non è una pendenza; è una scala.

Ricordatelo la prossima volta che sentite i futuristi parlare di crescita esponenziale.

Il co-fondatore di Intel Gordon Moore (Legge di Moore) affermò nel 1965 che il numero di transistor su un microchip sarebbe raddoppiato ogni anno. Un altro dirigente di Intel, David House, ha successivamente rivisto questa affermazione per dire: “la potenza di calcolo raddoppia ogni 18 mesi." Per un certo periodo, le CPU Intel sono state il simbolo di questa legge. Fino a quando l’aumento delle prestazioni della CPU non si è appiattito come un blocco di calcare.

Ma se rimpicciolisci, vedrai che il prossimo blocco di calcare è già lì; La crescita dell’informatica si è spostata dalle sole CPU al mondo delle GPU. Il CEO di Nvidia, Jensen Huang, ha giocato a lungo ed è emerso come un forte vincitore; Ha creato la propria scala, inizialmente con i giochi, poi con la visione artificiale e, più recentemente, con l’intelligenza artificiale generativa.

L’illusione di una crescita regolare

La crescita tecnologica è piena di sprint e pause e la generazione AI non ne è immune. L’onda di corrente è guidata dall’architettura del trasformatore. Per citare Dario Amodei, Presidente e co-fondatore di Anthropic: “L’esponenziale continua ad andare avanti finché non smette più. E ogni anno pensavamo: ‘Beh, non è possibile che le cose continuino in modo esponenziale’ – e ogni anno è stato così.”

Ma proprio mentre la CPU ristagna e le GPU prendono il comando, vediamo segnali che la crescita di Masters sta cambiando nuovamente i paradigmi. Ad esempio, alla fine del 2024, DeepSeek ha sorpreso il mondo formando un modello di livello mondiale con un budget incredibilmente ridotto, in parte utilizzando la tecnica MoE.

​Ricordi dove hai visto menzionata questa tecnica di recente? Comunicato stampa Rubin di Nvidia: La tecnologia “…presenta le ultime generazioni della tecnologia di interconnessione Nvidia NVLink… per accelerare l’intelligenza artificiale degli agenti, il ragionamento avanzato e l’inferenza del modello MoE su larga scala a un costo per moneta fino a 10 volte inferiore.”

​Jensen sa che l’agognata crescita esponenziale dell’informatica non si ottiene più con la pura forza bruta. A volte è necessario cambiare completamente l’architettura per fare il passo successivo.

Crisi di latenza: dove Groq si sta adattando

​Questa lunga introduzione ci porta a Groq.

I maggiori miglioramenti nelle capacità di ragionamento dell’intelligenza artificiale nel 2025 sono stati ottenuti attraverso il “calcolo del tempo di inferenza” o, in parole povere, “consentendo al modello di pensare per un periodo di tempo più lungo”. Ma il tempo è denaro. Ai consumatori e alle imprese non piace aspettare.

È qui che entra in gioco Groq con la sua inferenza fulminea. Se combini l’efficienza architetturale di modelli come DeepSeek con l’elevato throughput di Groq, avrai a portata di mano l’intelligenza transfrontaliera. Eseguendo l’inferenza più velocemente, è possibile rendere i modelli competitivi “poco intuitivi” e fornire ai clienti un sistema “più intelligente” senza penalità per eventuali ritardi.

Chip universale per l’ottimizzazione dell’inferenza

Negli ultimi dieci anni, la GPU è stata il martello universale per ogni chiodo AI. Utilizzi gli H100 per addestrare il modello; usi H100 (o versioni abbreviate) per eseguire il modello. Tuttavia, poiché i modelli cambiano "Sistema 2" Il carico di lavoro computazionale del pensiero (dove l’IA ragiona, si autocorregge e itera prima di rispondere) cambia.

L’addestramento richiede un’enorme forza bruta parallela. L’inferenza richiede un’elaborazione sequenziale più rapida, soprattutto per i modelli di ragionamento. Dovrebbe generare token al volo per facilitare complesse catene di pensiero senza che l’utente debba attendere minuti per una risposta. L’architettura LPU (Language Processing Unit) di Groq consente un’inferenza rapidissima eliminando il collo di bottiglia della larghezza di banda della memoria che affligge le GPU durante l’inferenza di piccoli batch.

Il motore della prossima ondata di crescita

Per i dirigenti senior, questa potenziale convergenza risolve il seguente problema: "tempo per pensare" ritardare la crisi. Considera le aspettative per gli agenti di intelligenza artificiale: vogliamo che prenotino i voli per conto proprio, codifichino intere applicazioni e ricerchino precedenti legali. Per fare ciò in modo affidabile, un modello potrebbe dover generare 10.000 dati interni. "gettoni di pensiero" verificare il proprio operato prima di inviare una sola parola all’utente.

  • Su una GPU standard: Potrebbero essere necessari dai 20 ai 40 secondi per elaborare 10.000 token pensiero. L’utente si annoia e se ne va.

  • Su Groq: La stessa catena di pensieri avviene in meno di 2 secondi.

Se Nvidia integrerà la tecnologia di Groq, risolverà il problema "Aspetto che il robot pensi" problema. Preservano la magia dell’intelligenza artificiale. Proprio come sono passati dal rendering dei pixel (giochi) all’intelligenza della visualizzazione (gen AI), ora passeranno alla visualizzazione ragionamento in tempo reale.

Inoltre, questo crea un formidabile fossato per il software. Il più grande ostacolo di Groq è sempre stato il suo stack software; La più grande risorsa di Nvidia è CUDA. Se Nvidia avvolgesse il suo ecosistema attorno all’hardware di Groq, scaverebbe un fossato troppo ampio perché i concorrenti possano attraversarlo. Offriranno una piattaforma universale: l’ambiente migliore per l’allenamento e l’ambiente più efficiente per la corsa (Groq/LPU).

Considera cosa succede quando combini questa pura potenza di inferenza con un modello open source di prossima generazione (come il vociferato DeepSeek 4): ottieni un’offerta che rivaleggia con i modelli leader di oggi in termini di costi, prestazioni e velocità. Ciò apre una serie di opportunità per Nvidia, dall’entrare direttamente nel business dell’inferenza con la propria offerta cloud al continuare a fornire un numero esponenzialmente crescente di clienti.

Il prossimo passo nella piramide

Ritornando alla nostra metafora di apertura: "esponenziale" La crescita dell’intelligenza artificiale non è una linea fluida di FLOP grezzi; è una scala di colli di bottiglia che crollano.

  • Blocco 1: Non siamo riusciti a calcolarlo abbastanza velocemente. Soluzione: GPU.

  • Blocco 2: Non siamo riusciti ad allenarci abbastanza in profondità. Soluzione: Architettura del trasformatore.

  • Blocco 3: non possiamo "pensare" abbastanza veloce. Soluzione: LPU di Groq.

Jensen Huang non ha mai avuto paura di cannibalizzare le proprie linee di prodotti per possedere il futuro. Convalidando Groq, Nvidia non solo acquisterà un chip più veloce; porterebbero la prossima generazione di intelligenza alle masse.

Andrew Filev, fondatore e CEO di Zencoder

Collegamento alla fonte