Home Politica Il ragionamento 3D Jamba di AI21 ridefinisce il significato di “minore” negli...

Politica

Il ragionamento 3D Jamba di AI21 ridefinisce il significato di “minore” negli LLM: contesto 250K su laptop

12 Ottobre 2025

L’ultima aggiunta all’ondata di piccoli modelli per il business, Ai21 è buonoAfferma che portare i modelli sui dispositivi libererà il traffico nei data center.

Jamba Reasoning 3D di AI21 è un modello open source “minuscolo” in grado di eseguire ragionamenti estesi, generare codice e rispondere in base alla realtà. Jamba Reasoning 3D gestisce oltre 250.000 token e può dedurre sui dispositivi edge.

Jamba Reasoning 3D funziona su dispositivi come laptop e telefoni cellulari, ha affermato la società.

Il co-CEO di AI21 Ori Goshen ha dichiarato a VentureBeat che l’azienda sta vedendo più casi d’uso aziendali per modelli più piccoli, principalmente perché lo spostamento della maggior parte dell’inferenza sui dispositivi libera i data center.

“Quello che stiamo vedendo nel settore in questo momento è un problema economico con la costruzione di data center molto costosi, e il rapporto tra le entrate dei data center e il tasso di ammortamento di tutti i chip mostra che i conti non hanno senso”, ha detto Goshen.

Ha aggiunto che in futuro “l’industria in generale sarà ibrida, nel senso che alcuni calcoli verranno eseguiti su dispositivi nativi e altre inferenze verranno spostate sulle GPU”.

Testato su MacBook

Jamba Reasoning 3D combina l’architettura Mamba e Transformers, consentendogli di eseguire una finestra di 250.000 token su tutti i dispositivi. AI21 ha affermato che può raggiungere velocità di inferenza 2-4 volte più elevate. Goshen ha affermato che l’architettura Mamba contribuisce in modo significativo alla velocità del modello.

L’architettura ibrida di Jamba Reasoning 3D consente inoltre di ridurre i requisiti di memoria, riducendo le esigenze di elaborazione.

AI21 ha testato il modello su un MacBook Pro standard e ha scoperto che poteva elaborare 35 monete al secondo.

Goshen ha affermato che il modello funziona meglio su attività che implicano l’invocazione di funzioni, il rendering basato su policy e l’instradamento degli strumenti. Tramite i dispositivi è possibile effettuare richieste semplici, come chiedere informazioni su un incontro imminente e chiedere alla modella di creare un’agenda per esso, ha affermato. È possibile salvare attività di ragionamento più complesse per i cluster GPU.

Piccoli modelli nelle imprese

Le aziende sono interessate a utilizzare un mix di modelli junior, alcuni progettati specificamente per il loro settore, mentre altri sono versioni condensate di LLM.

Nel mese di settembre, Meta lanciato MobileLLM-R1, una famiglia di modelli di ragionamento I parametri vanno da 140M a 950M. Questi modelli sono progettati per la matematica, la codifica e il ragionamento scientifico piuttosto che per le applicazioni di chat. MobileLLM-R1 può essere eseguito su dispositivi con vincoli di calcolo.

Google‘S Gemma È stato uno dei primi piccoli modelli ad arrivare sul mercato, progettato per funzionare su dispositivi portatili come laptop e telefoni cellulari. Gemma lo ha fatto da allora ampliato.

come le aziende FICO Hanno anche iniziato a creare i propri modelli. Nasce FICO FICO Focused Language e FICO Focused Index sono versioni mini del FICO Focused Index che risponderanno solo a domande relative alla finanza.

Goshen ha affermato che la grande differenza offerta dal loro modello è che è ancora più piccolo della maggior parte dei modelli e può comunque gestire attività di ragionamento senza sacrificare la velocità.

prova comparativa

Nei test benchmark, il Jamba Reasoning 3B ha ottenuto ottimi risultati rispetto ad altri modelli più piccoli. Qwen 4B, MetaDa Llama 3.2B-3B e Phi-4-Mini Microsoft.

Anche se è arrivato secondo dietro al Qwen 4 in MMLU-Pro, ha sovraperformato tutti i modelli nel test IFBench e in Humanity’s Last Exam.

Un altro vantaggio dei modelli piccoli come Jamba Reasoning 3D è che sono altamente instradabili e offrono alle aziende migliori opzioni di privacy perché l’inferenza non viene inviata a un altro server, ha affermato Goshen.

“Credo che esista un mondo in cui è possibile ottimizzare in base alle esigenze e all’esperienza del cliente, e i modelli che verranno archiviati sui dispositivi rappresentano una parte importante di questo”, ha affermato.

Collegamento alla fonte

Il ragionamento 3D Jamba di AI21 ridefinisce il significato di “minore” negli LLM: contesto 250K su laptop

Testato su MacBook

Piccoli modelli nelle imprese

prova comparativa

Ultimo post

Trump Turnberry è morto in 28 Open

I prezzi dell’argento scendono mentre i mercati tengono d’occhio la riunione...

Agente NICE: Donald Trump sostiene la ridenominazione della chiave agenzia governativa

I futures del Dow Jones scivolano mentre le tensioni in Iran...

Il produttore del gateway alla fine ha riconosciuto il problema, omettendo...

Le vendite di Resident Evil Requiem spingono Capcom ad aumentare le...

Solheim Cup – Colonna del Capitano di Anna Nordqvist: abiti per...

Il passo mancante tra promozione e profitto

Il cambio USD/JPY si indebolisce mentre lo yen si rafforza in...

Levitt ha informato i giornalisti dopo la cena di caccia

Il cambio USD/CAD scende ai minimi di sei settimane mentre il...

Allarme di emergenza dopo che Kansas City ha visto un mese...

Categoria