E se i modelli di intelligenza artificiale più complessi mai creati, giganti da trilioni di parametri in grado di rimodellare le industrie, potessero funzionare perfettamente su qualsiasi piattaforma cloud? Sembra fantascienza, ma Perplexity lo ha trasformato in realtà. Superando gli ostacoli tecnici legati all’implementazione di un modello MOE (mix of experts) da trilioni di parametri, Perplexity ha realizzato un’impresa che molti nel campo dell’intelligenza artificiale considerano quasi impossibile. Questi modelli, con la loro scala sbalorditiva e le loro esigenze computazionali, sono stati storicamente limitati a configurazioni specializzate. Ora, grazie alle innovazioni nella comunicazione multi-nodo e nell’ottimizzazione del kernel, non sono solo portatili ma anche più efficienti che mai. Questo è un momento fantastico per l’intelligenza artificiale, che potrebbe ridefinire il modo in cui affrontiamo le applicazioni IA su larga scala.

In questo articolo esploreremo come i progressi nella perplessità stanno sbloccando il potenziale di modelli da trilioni di parametri come KM-K2 e DeepSeq-V3. Dall’architettura unica dei modelli MoE alle complesse sfide legate alla loro scalabilità su più nodi, acquisirai informazioni sulle soluzioni innovative che rendono possibili queste scoperte. Imparerai anche come le innovazioni di Perplexity, come le architetture ibride CPU-GPU e le tecnologie di comunicazione ad alta velocità, stanno affrontando le barriere che un tempo limitavano la scalabilità. Man mano che i sistemi di intelligenza artificiale continuano a crescere, questi sviluppi sollevano una domanda essenziale: quali nuove frontiere ci consentirà di esplorare questo salto di scalabilità e portabilità?

Modello AI da trilioni di parametri

TL;DR Fatti principali:

  • Tangle è stato implementato con successo Modello di miscela di esperti (MOE) con trilioni di parametri Risolvere le sfide nelle distribuzioni multi-nodo, su più piattaforme cloud e definire nuovi standard di scalabilità e prestazioni.
  • L’architettura MoE utilizza strati esperti sparsi, attivando solo un sottoinsieme di esperti per input, il che riduce i requisiti computazionali pur mantenendo un’elevata precisione, ma richiede soluzioni innovative per l’instradamento e la comunicazione efficiente dei token.
  • Le ottimizzazioni del kernel introdotte da Perplexity, come l’architettura ibrida CPU-GPU, RDMA, NVLink e buffer di invio/ricezione ottimizzati, risolvono i colli di bottiglia della comunicazione nelle configurazioni multi-nodo, consentendo un ridimensionamento efficiente del modello MOE.
  • I benchmark delle prestazioni convalidano questi progressi, mostrando una latenza inferiore e un throughput più elevato per modelli su larga scala come KM-K2 (1 trilione di parametri) e DeepSeek-V3 (671 miliardi di parametri), soprattutto nei carichi di lavoro impegnativi.
  • Gli sforzi futuri includono la collaborazione con AWS per migliorare le prestazioni dell’Elastic Fabric Adapter (EFA) e l’esplorazione di tecniche di micro-batching, garantendo continui progressi nella scalabilità e nell’efficienza dell’intelligenza artificiale per le applicazioni del mondo reale.

Perplexity ha raggiunto un traguardo significativo nel campo dell’intelligenza artificiale distribuendo con successo un modello MOE (Mixture-of-Experts) da trilioni di parametri su più piattaforme cloud. Questo risultato risolve le sfide critiche nelle implementazioni multi-nodo, stabilendo un nuovo punto di riferimento per prestazioni e scalabilità. Attraverso l’ottimizzazione avanzata del kernel, Perplexity ha consentito un’inferenza efficiente per modelli su larga scala come KM-K2 e DeepSeq-V3. Queste innovazioni risolvono i principali colli di bottiglia nella comunicazione tra i nodi, garantendo scalabilità e portabilità senza soluzione di continuità tra diversi ambienti cloud.

Cosa distingue il Mix of Experts (MOE)?

L’architettura Mixture-of-Experts (MOE) si distingue come un approccio eccellente per scalare le reti neurali a trilioni di parametri. A differenza dei tradizionali strati densi, MoE impiega strati esperti sparsi, che attivano solo un sottoinsieme di esperti per ciascun input. Questo design riduce significativamente i requisiti computazionali mantenendo un’elevata precisione del modello. Tuttavia, l’implementazione del modello del Ministero dell’Energia presenta sfide uniche. La comunicazione sparsa tra esperti richiede kernel specializzati per instradare i token in modo efficiente, soprattutto nelle configurazioni multi-nodo in cui il sovraccarico di comunicazione può ostacolare le prestazioni.

Utilizzando l’attivazione sparsa, i modelli MoE raggiungono un equilibrio tra efficienza computazionale e accuratezza, rendendoli la scelta preferita per applicazioni IA su larga scala. Tuttavia, la complessità della gestione del routing dei token e delle comunicazioni tra i nodi sottolinea la necessità di soluzioni innovative per realizzare appieno il loro potenziale.

Sfide nella distribuzione multinodo

I modelli con trilioni di parametri sono troppo grandi per rientrare nei limiti di memoria di un singolo nodo GPU, rendendo necessaria l’implementazione su più nodi. Tuttavia, ciò introduce complessità significative sia nelle comunicazioni tra nodi che tra nodi. Tecnologie come InfiniBand e AWS Elastic Fabric Adapter (EFA) sono comunemente utilizzate per connettere i nodi, ma presentano limitazioni intrinseche in termini di latenza e throughput.

Per i modelli MoE, in cui è richiesto il routing frequente dei token tra strati esperti sparsi, queste limitazioni possono avere un impatto significativo sulle prestazioni complessive. La necessità di una comunicazione costante tra i nodi aumenta le sfide, poiché anche piccole inefficienze nel trasferimento dei dati possono causare notevoli ritardi. Il superamento di queste barriere richiede una combinazione di innovazioni hardware e software per ottimizzare i percorsi di comunicazione e garantire una scalabilità efficiente.

Innovazione del kernel: affrontare le barriere comunicative

Per affrontare le sfide dell’implementazione multi-nodo, Perplexity ha introdotto una suite di ottimizzazioni del kernel su misura appositamente per il modello MoE. Questi progressi includono:

  • Architettura ibrida CPU-GPU: Questo approccio utilizza la potenza della CPU per le operazioni di invio e della GPU per attività ad alta intensità di calcolo, garantendo un funzionamento efficiente dei processi di routing e combinazione dei token.
  • RDMA, NVLink e GDRCopy: Queste tecnologie consentono trasferimenti di token ad alta velocità tra nodi e all’interno delle GPU, riducendo significativamente il sovraccarico di comunicazione e migliorando l’efficienza del flusso di dati.
  • Buffer di invio/ricezione ottimizzati: I buffer ottimizzati riducono la latenza durante la trasmissione dei token, garantendo una comunicazione più rapida e affidabile tra i nodi.

Queste innovazioni del kernel consentono al modello MoE di scalare efficacemente su più nodi, ottenendo prestazioni all’avanguardia su piattaforme come AWS EFA e ConnectX-7. Risolvendo i colli di bottiglia della comunicazione inerenti alle configurazioni multi-nodo, questi progressi aprono la strada all’implementazione di modelli da trilioni di parametri con un’efficienza senza precedenti.

Benchmark delle prestazioni: convalida dei progressi

Le ottimizzazioni del kernel di Perplexity sono state sottoposte a test rigorosi attraverso benchmark delle prestazioni, dimostrando miglioramenti sostanziali rispetto alle implementazioni precedenti come i kernel basati su DeepEP e NVSHMEM. I risultati evidenziano una latenza significativamente bassa e un throughput elevato, consentendo un’implementazione efficiente di modelli su larga scala come KM-K2 (1 trilione di parametri) e DeepSeq-V3 (671 miliardi di parametri).

La scalabilità di questi modelli è particolarmente evidente in batch di medie e grandi dimensioni, dove i kernel ottimizzati mantengono un throughput coerente tra i nodi. Questa stabilità garantisce che i modelli possano gestire carichi di lavoro impegnativi, rendendoli ideali per applicazioni come l’elaborazione del linguaggio naturale, i sistemi di raccomandazione e altre attività di intelligenza artificiale su larga scala. I benchmark delineano l’impatto pratico di queste innovazioni, convalidandone l’efficacia in scenari reali.

Direzioni future: avanzamento della scalabilità e dell’efficienza

Perplexity sta collaborando attivamente con AWS per migliorare ulteriormente le prestazioni dell’Elastic Fabric Adapter (EFA). Gli aggiornamenti pianificati per EFA-Direct e LibFabric hanno lo scopo di ridurre i costi di comunicazione e migliorare la scalabilità, consentendo distribuzioni multinodo ancora più efficienti. Inoltre, l’azienda sta esplorando tecniche di micro-batching, che possono ridurre la latenza e aumentare l’efficienza nel servire modelli più grandi.

Questi sforzi riflettono l’impegno di Perplexity nel superare i limiti della scalabilità e delle prestazioni dell’IA. Perfezionando continuamente le soluzioni hardware e software, l’azienda sta gettando le basi per modelli di intelligenza artificiale ancora più grandi ed efficienti in futuro. L’attenzione all’innovazione garantisce che i modelli da trilioni di parametri rimarranno in prima linea nella ricerca sull’intelligenza artificiale e nelle applicazioni pratiche.

Promuovere il progresso nell’intelligenza artificiale su larga scala

I progressi di Perplexity nell’implementazione del modello MOE (mix of experts) da trilioni di parametri rappresentano un significativo passo avanti nell’intelligenza artificiale. Risolvendo le sfide dell’implementazione multi-nodo e ottimizzando i percorsi di comunicazione, l’azienda ha reso questi enormi modelli più accessibili ed efficienti sulle piattaforme cloud. Man mano che le innovazioni in corso continuano a perfezionare queste tecnologie, le potenziali applicazioni dei modelli da trilioni di parametri si espanderanno, portando a progressi nella ricerca sull’intelligenza artificiale e nell’implementazione nel mondo reale. Questi sviluppi non solo aumentano la scalabilità dei sistemi di intelligenza artificiale, ma aprono anche nuove possibilità per risolvere problemi complessi in tutti i settori. Leggi il documento di ricerca completo qui arXiv,

Fonte : angoscia

Archiviato in: AI, Notizie sulla tecnologia, Notizie principali





Ultime offerte di gadget Geeky

Divulgazione: Alcuni dei nostri articoli contengono link di affiliazione. Se acquisti qualcosa tramite uno di questi link, Geeky Gadgets potrebbe guadagnare una commissione di affiliazione. Scopri la nostra politica di divulgazione.

Collegamento alla fonte