Per la maggior parte delle persone è iniziata l’era dell’intelligenza artificiale produttiva Il ChatGPT di OpenAI sarà rilasciato alla fine del 2022ma la tecnologia sottostante… "Trasformatore" L’architettura della rete neurale, che consente ai modelli di intelligenza artificiale di valutare in modo diverso l’importanza delle diverse parole in una frase (o dei pixel in un’immagine) e di addestrarsi sulle informazioni in parallelo, risale al fondamentale articolo di Google del 2017 "Tutto ciò di cui hai bisogno è attenzione."
Sebbene i Transformers offrano una qualità del modello senza precedenti e supportino la maggior parte dei principali modelli di intelligenza artificiale generativa in uso oggi, sono golosi dal punto di vista computazionale. Sono gravati dal calcolo di secondo ordine e dalle richieste di memoria lineare che rendono l’inferenza su larga scala un’impresa costosa, spesso proibitiva. Da qui la volontà di alcuni ricercatori di migliorarli sviluppando Mamba, una nuova architettura che sarà inclusa nei modelli ibridi Mamba-Transformer come Nemotron 3 Super di Nvidia nel 2023.
Ora, gli stessi ricercatori dietro l’architettura originale del Mamba, tra cui Albert Gu della Carnegie Mellon e Tri Dao di Princeton, ha rilasciato l’ultima versione della loro nuova architettura Mamba-3È immediatamente disponibile per gli sviluppatori, comprese le entità commerciali, come modello linguistico sotto la permissiva licenza open source Apache 2.0. C’è anche un articolo tecnico Pubblicato su arXiv.org.
Questo modello segnala un cambiamento di paradigma dall’efficienza educativa all’efficacia educativa. "priorità di inferenza" progetto. Come ha notato Gu nell’annuncio ufficiale, Mamba-2 si concentra sull’eliminazione dei colli di bottiglia pre-allenamento, mentre Mamba-3 mira a risolvere questo problema. "GPU fredda" Problema: il fatto che l’hardware moderno spesso rimane inattivo durante la decodifica e attende il movimento della memoria anziché eseguire calcoli.
Stupito (no, non l’azienda) e la ritrovata efficienza del Mamba 3
Mamba, incluso Mamba 3, è un tipo di State Space Model (SSM).
Questi sono effettivamente ad alta velocità "macchina riassuntiva" per l’IA. Mentre molti modelli popolari (come quelli dietro ChatGPT) devono riesaminare ogni parola che vedono per capire cosa succederà dopo (il che diventa più lento e più costoso quanto più a lungo va avanti la conversazione), un SSM mantiene uno stato interno compatto e in continua evoluzione. Questa situazione è in realtà digitale "istantanea mentale" L’intera storia dei dati.
Man mano che arrivano nuove informazioni, il modello aggiorna questa istantanea anziché rileggere tutto da zero. Ciò consente all’intelligenza artificiale di elaborare enormi quantità di informazioni, come intere biblioteche di libri o lunghi tratti di DNA, a velocità incredibile e con requisiti di memoria molto inferiori.
Per apprezzare il salto rappresentato da Mamba-3, è prima necessario comprendere la confusione, che è la metrica principale utilizzata nella ricerca per misurare la qualità del modello.
Perplessità nel contesto della modellazione del linguaggio, come "sorpreso" Un modello si basa su nuovi dati.
Pensa a un modello come a un giocatore d’azzardo professionista. Se la complessità di un modello è elevata, non si può essere sicuri su dove piazzare le proprie scommesse; vede molte possibili parole successive come ugualmente probabili.
Un punteggio di perplessità più basso indica un maggiore coinvolgimento del modello. "definito"— Comprende meglio i modelli sottostanti del linguaggio umano. Per gli sviluppatori di intelligenza artificiale, la sorpresa funge da proxy di intelligenza ad alta fedeltà.
La svolta riportata nella ricerca Mamba-3 è che ha una complessità paragonabile al suo predecessore, Mamba-2, ma utilizza solo la metà delle dimensioni dello stato. Ciò significa che un modello può essere intelligente e doppiamente efficiente da eseguire.
Una nuova filosofia
La filosofia che guida Mamba-3 rappresenta un cambiamento fondamentale nel modo in cui pensiamo all’intelligenza artificiale "intelligenza" a seconda della velocità dell’hardware su cui viene eseguito. Mentre la generazione precedente Mamba-2 era progettata per essere addestrata a velocità da record, la Mamba-3 "priorità di inferenza" architettura: inferenza che si riferisce al modo in cui i modelli di intelligenza artificiale vengono presentati agli utenti finali attraverso siti Web o interfacce di programmazione delle applicazioni (API), come ChatGPT o Google Gemini.
L’obiettivo principale di Mamba 3 è massimizzare ogni secondo in cui il chip del computer (GPU) è attivo e far riflettere il modello il più possibile senza far aspettare l’utente per una risposta.
Nel mondo dei modelli linguistici, ogni minima precisione è difficile da conquistare. Il più avanzato su una scala di 1,5 miliardi di parametri "MIMO" La variante di Mamba-3 ha raggiunto una precisione media del 57,6% nei benchmark; ciò rappresenta un salto di 2,2 punti percentuali rispetto allo standard del settore Transformer.
Sebbene un salto di due punti possa sembrare modesto, in realtà rappresenta un aumento relativo di circa il 4% nella capacità di modellazione del linguaggio rispetto alla linea di base di Transformer. Ancora più impressionante è che, come accennato in precedenza, Mamba-3 può eguagliare la qualità di previsione del suo predecessore utilizzando solo la metà della velocità interna. "dimensione dello stato," offre effettivamente lo stesso livello di intelligenza con una latenza di memoria significativamente inferiore.
Da anni mancano alternative efficienti ai Transformer. "divario logico"- spesso fallivano in semplici compiti di ragionamento, come seguire schemi o risolvere calcoli aritmetici di base, perché la loro matematica interna era molto rigida. Mamba-3 risolve questo problema introducendo stati di valore complessi.
Questo aggiornamento matematico agisce come una bussola interna, consentendo al modello di rappresentare "rotazionale" logica. usando questo "rotante" Mamba-3 può risolvere quasi perfettamente enigmi logici e compiti di monitoraggio delle condizioni che i modelli precedenti potevano solo immaginare, portando infine la capacità di ragionamento dei modelli lineari allo stesso livello dei sistemi più avanzati.
L’ultimo pezzo del puzzle è il modo in cui Mamba-3 interagisce con l’hardware fisico. Oggi, la maggior parte dei modelli di intelligenza artificiale "legato alla memoria," Ciò significa che il chip del computer trascorre la maggior parte del tempo inattivo, in attesa che i dati vengano spostati dalla memoria al processore.
Mamba-3 introduce una formulazione Multiple Input, Multiple Output (MIMO) che cambia radicalmente questa dinamica. Mamba-3 sfrutta le operazioni eseguite in precedenza eseguendo fino a quattro volte più operazioni matematiche in parallelo ad ogni passaggio. "oziare" forza. Ciò consente al modello di fare molto di più "pensiero" per ogni parola prodotta dall’utente senza aumentare il tempo effettivo che l’utente trascorre in attesa di una risposta. Puoi trovare ulteriori informazioni al riguardo di seguito.
Tre nuovi salti tecnologici
Il fascino dei modelli lineari è sempre stato rappresentato dai loro costanti requisiti di memoria e dal ridimensionamento computazionale lineare.
Ma come sottolineano gli autori di Mamba 3, "niente pranzo gratis". Fissando la dimensione dello Stato in termini di efficienza, questi modelli sono costretti a comprimere l’intero contesto storico in un’unica rappresentazione; Ciò è in netto contrasto con la cache KV in continua crescita di Transformer. Mamba-3 tira tre leve speciali per far sì che lo stato stazionario faccia più lavoro.
1. Discretizzazione esponenziale-trapezoidale
I modelli spaziali degli stati sono essenzialmente sistemi a tempo continuo. "discretizzato" per elaborare array discreti di dati digitali.
Basato sulle iterazioni precedenti "Eulero esponenziale" discretizzazione: un’euristica che fornisce solo un’approssimazione del primo ordine del sistema.
Introduzione di Mamba-3 regola trapezoidale generalizzataFornisce un’approssimazione quadratica accurata. Questo non è solo un miglioramento matematico; provoca una situazione "convoluzione implicita" all’interno dell’iterazione del kernel.
Combinando questo con termini espliciti di bias B e C, i ricercatori sono stati in grado di eliminare la breve convoluzione causale che ha sostenuto per anni le architetture ricorrenti.
2. SSM a valore complesso e "Trucco della corda"
Una delle critiche più persistenti ai modelli lineari è stata la loro incapacità di risolvere semplici compiti di monitoraggio dello stato, come determinare la parità di una stringa di bit.
Questo fallimento è dovuto al fatto che la matrice di transizione è limitata ai numeri reali, il che impedisce al modello di essere rappresentativo. "rotazionale" Dynamics.Mamba-3 risolve questo problema visualizzando l’SSM sottostante con valori complessi.
Usando ciò che la squadra chiama "Numero CORDA," Mostrano che un aggiornamento dello stato a valori complessi è matematicamente equivalente a un inserimento rotante dipendente dai dati (RoPE) applicato alle proiezioni di input e output.
Ciò consente a Mamba-3 di risolvere compiti di ragionamento sintetico impossibili per Mamba-2.
3. MIMO: aumento della densità aritmetica
Il salto più significativo nell’efficienza dell’inferenza deriva dalla transizione da una soluzione Single Input, Single Output (SISO) a Single Input, Single Output (SISO). Ingresso multiplo, uscita multipla (MIMO) SSM.
In un SSM standard, l’aggiornamento dello stato è un’operazione del prodotto esterno fortemente legata alla memoria. Mamba-3 passa all’aggiornamento dello stato basato sulla moltiplicazione di matrici, "densità aritmetica" il rapporto del modello tra FLOP e traffico di memoria.
Ciò consente al modello di eseguire più calcoli nella fase di decodifica dipendente dalla memoria. Fondamentalmente, Mamba-3 utilizza: "oziare" Core di calcolo della GPU per aumentare la potenza del modello "gratuito," Mantiene la stessa velocità di decodifica dei suoi predecessori più semplici.
Cosa significa Mamba 3 per le aziende e gli sviluppatori di intelligenza artificiale?
Per le aziende, Mamba-3 rappresenta un cambiamento strategico nel costo totale di proprietà (TCO) delle implementazioni di intelligenza artificiale.
-
Costi e prestazioni: Mamba-3 con prestazioni dei parametri abbinati (MIMO) corrisponde alla complessità di Mamba-2 utilizzando metà della dimensione dello stato. Per l’implementazione aziendale, ciò raddoppia effettivamente il throughput di inferenza per lo stesso ingombro hardware.
-
Flussi di lavoro dell’agente: Man mano che le organizzazioni si spostano verso flussi di lavoro paralleli e mediati (come la codifica automatizzata o gli agenti del servizio clienti in tempo reale), la domanda di produzione a bassa latenza aumenta in modo esponenziale. Mamba-3 è specificamente progettato per impedire il crash dell’hardware della GPU "Freddo" durante queste missioni.
-
Vantaggio ibrido: I ricercatori prevedono il futuro dell’intelligenza artificiale aziendale modelli ibridi. Le organizzazioni possono combinare efficacemente Mamba-3 con un’attenzione personalizzata. "memoria" Gli SSM lo sono esattamente "banca dati" Stoccaggio dei trasformatori.
Disponibilità, licenza e utilizzo
Mamba-3 non è solo un documento di ricerca teorica; Si tratta di una versione open source completamente implementata, immediatamente disponibile con il codice modello pubblicato su di essa. Github.
Il progetto è rilasciato sotto la licenza Apache-2.0. Si tratta di una licenza permissiva e favorevole alle imprese che consente l’uso gratuito, la modifica e la distribuzione commerciale senza richiedere la divulgazione del codice sorgente proprietario.
Questa versione è utile per gli sviluppatori che creano applicazioni a lungo contesto, agenti di ragionamento in tempo reale o coloro che desiderano ridurre i costi della GPU in ambienti di produzione ad alto volume.
Alla guida della rivoluzione dei modelli spaziali statali (SSM).
La dichiarazione ha suscitato grande interesse, soprattutto sui social media. "guidato dallo studente" natura del progetto. Gu, la cui biografia su X/Twitter lo descrive come "Alla guida della rivoluzione dell’MVU," ha dato pieno credito ai futuri studenti, incluso Akash Lahoti E Kevin Y.Li
oggetto di .Gu ha sottolineato la soddisfazione del team per il design:
"Siamo molto soddisfatti del design del modello finale! Tre cambiamenti metodologici chiave (imo) sono ispirati da alcuni metodi e matematici accurati."
Poiché i flussi di lavoro delle agenzie aumentano la domanda di inferenza "passando attraverso il tetto," L’arrivo di Mamba-3 dimostra che il futuro dell’intelligenza artificiale potrebbe non consistere solo nell’avere il modello più grande, ma anche il più efficiente.
Mamba-3 ha riallineato con successo l’SSM con le realtà dell’hardware moderno e ha dimostrato che anche nell’era dei Transformer, i principi della teoria del controllo classica svolgono ancora un ruolo vitale.















