L’ultima aggiunta all’ondata di piccoli modelli per il business, Ai21 è buonoAfferma che portare i modelli sui dispositivi libererà il traffico nei data center.
Jamba Reasoning 3D di AI21 è un modello open source “minuscolo” in grado di eseguire ragionamenti estesi, generare codice e rispondere in base alla realtà. Jamba Reasoning 3D gestisce oltre 250.000 token e può dedurre sui dispositivi edge.
Jamba Reasoning 3D funziona su dispositivi come laptop e telefoni cellulari, ha affermato la società.
Il co-CEO di AI21 Ori Goshen ha dichiarato a VentureBeat che l’azienda sta vedendo più casi d’uso aziendali per modelli più piccoli, principalmente perché lo spostamento della maggior parte dell’inferenza sui dispositivi libera i data center.
“Quello che stiamo vedendo nel settore in questo momento è un problema economico con la costruzione di data center molto costosi, e il rapporto tra le entrate dei data center e il tasso di ammortamento di tutti i chip mostra che i conti non hanno senso”, ha detto Goshen.
Ha aggiunto che in futuro “l’industria in generale sarà ibrida, nel senso che alcuni calcoli verranno eseguiti su dispositivi nativi e altre inferenze verranno spostate sulle GPU”.
Testato su MacBook
Jamba Reasoning 3D combina l’architettura Mamba e Transformers, consentendogli di eseguire una finestra di 250.000 token su tutti i dispositivi. AI21 ha affermato che può raggiungere velocità di inferenza 2-4 volte più elevate. Goshen ha affermato che l’architettura Mamba contribuisce in modo significativo alla velocità del modello.
L’architettura ibrida di Jamba Reasoning 3D consente inoltre di ridurre i requisiti di memoria, riducendo le esigenze di elaborazione.
AI21 ha testato il modello su un MacBook Pro standard e ha scoperto che poteva elaborare 35 monete al secondo.
Goshen ha affermato che il modello funziona meglio su attività che implicano l’invocazione di funzioni, il rendering basato su policy e l’instradamento degli strumenti. Tramite i dispositivi è possibile effettuare richieste semplici, come chiedere informazioni su un incontro imminente e chiedere alla modella di creare un’agenda per esso, ha affermato. È possibile salvare attività di ragionamento più complesse per i cluster GPU.
Piccoli modelli nelle imprese
Le aziende sono interessate a utilizzare un mix di modelli junior, alcuni progettati specificamente per il loro settore, mentre altri sono versioni condensate di LLM.
Nel mese di settembre, Meta lanciato MobileLLM-R1, una famiglia di modelli di ragionamento I parametri vanno da 140M a 950M. Questi modelli sono progettati per la matematica, la codifica e il ragionamento scientifico piuttosto che per le applicazioni di chat. MobileLLM-R1 può essere eseguito su dispositivi con vincoli di calcolo.
Google‘S Gemma È stato uno dei primi piccoli modelli ad arrivare sul mercato, progettato per funzionare su dispositivi portatili come laptop e telefoni cellulari. Gemma lo ha fatto da allora ampliato.
come le aziende FICO Hanno anche iniziato a creare i propri modelli. Nasce FICO FICO Focused Language e FICO Focused Index sono versioni mini del FICO Focused Index che risponderanno solo a domande relative alla finanza.
Goshen ha affermato che la grande differenza offerta dal loro modello è che è ancora più piccolo della maggior parte dei modelli e può comunque gestire attività di ragionamento senza sacrificare la velocità.
prova comparativa
Nei test benchmark, il Jamba Reasoning 3B ha ottenuto ottimi risultati rispetto ad altri modelli più piccoli. Qwen 4B, MetaDa Llama 3.2B-3B e Phi-4-Mini Microsoft.
Anche se è arrivato secondo dietro al Qwen 4 in MMLU-Pro, ha sovraperformato tutti i modelli nel test IFBench e in Humanity’s Last Exam.
Un altro vantaggio dei modelli piccoli come Jamba Reasoning 3D è che sono altamente instradabili e offrono alle aziende migliori opzioni di privacy perché l’inferenza non viene inviata a un altro server, ha affermato Goshen.
“Credo che esista un mondo in cui è possibile ottimizzare in base alle esigenze e all’esperienza del cliente, e i modelli che verranno archiviati sui dispositivi rappresentano una parte importante di questo”, ha affermato.















