In un settore in cui la dimensione del modello è spesso vista come un indicatore di intelligenza, IBM sta tracciando un percorso diverso; efficienza rispetto alle dimensioniE accessibilità piuttosto che astrazione.
Gigante della tecnologia di 114 anni quattro nuovi modelli Granite 4.0 NanoRilasciato oggi.
Questi modelli sono progettati per essere estremamente accessibili: le varianti da 350M possono essere eseguite comodamente su una moderna CPU per laptop con 8-16GB di RAM, mentre i modelli da 1,5B in genere richiedono una GPU con almeno 6-8GB di VRAM per prestazioni fluide, o RAM di sistema appena sufficiente e swap per l’estrazione della CPU. Ciò li rende particolarmente adatti agli sviluppatori che creano applicazioni su hardware consumer o all’edge senza fare affidamento sul cloud computing.
In effetti, i più piccoli possono anche essere eseguiti in modo nativo nel tuo browser web, alias Joshua Lochner. XenovaX, creatore di Transformer.js e ingegnere di machine learning presso Hugging Face, ha scritto sul social network:
Tutti i modelli Granite 4.0 Nano sono rilasciati con la licenza Apache 2.0 – perfetto per ricercatori, sviluppatori aziendali o indipendenti o anche per uso commerciale.
Sono nativamente compatibili con llama.cpp, vLLM e MLX e sono certificati ISO 42001 per lo sviluppo responsabile dell’intelligenza artificiale, lo standard pionieristico supportato da IBM.
Ma in questo caso piccolo non significa meno capace; può semplicemente significare un design più intelligente.
Questi modelli compatti non sono progettati per data center, ma per dispositivi edge, laptop e inferenze locali in cui il calcolo è basso e la latenza è un problema.
Nonostante le dimensioni ridotte, i modelli Nano mostrano risultati di riferimento che rivaleggiano o addirittura superano le prestazioni dei modelli più grandi della stessa categoria.
Questo rilascio è un segno che una nuova frontiera dell’IA si sta rapidamente formando; Questo limite non risiede nel dominio della scala pura, ma nel dominio dell’intelligenza artificiale. ridimensionamento strategico.
Cosa ha rilasciato esattamente IBM?
Granito 4.0 Nano la famiglia comprende quattro modelli open source attualmente disponibili Volto che abbraccia:
-
Granito-4.0-H-1B (~1,5 miliardi di parametri) – Architettura SSM ibrida
-
Granito-4.0-H-350M (~350 milioni di parametri) – Architettura Hybrid-SSM
-
Granito-4.0-1B – Modello basato su trasformatore, numero di parametri più vicino al 2D
-
Granito-4.0-350M – Variante basata su trasformatore
I modelli della serie H, Granite-4.0-H-1B e H-350M, utilizzano l’architettura SSM (State Space) ibrida, che combina efficienza e prestazioni potenti, rendendoli ideali per ambienti edge a bassa latenza.
Nel frattempo, le varianti del trasformatore standard – Granite-4.0-1B e 350M – offrono una più ampia compatibilità con strumenti come llama.cpp progettati per casi d’uso in cui l’architettura ibrida non è ancora supportata.
In pratica, il modello 1D del trasformatore è più vicino ai parametri 2D, ma è in linea con il fratello ibrido in termini di prestazioni, offrendo agli sviluppatori flessibilità rispetto ai vincoli di runtime.
“La variante ibrida è un vero modello 1D. Tuttavia, la variante non ibrida è più vicina al 2D, ma abbiamo scelto di mantenere la denominazione in linea con la variante ibrida per rendere la connessione facilmente visibile”, ha affermato Emma, responsabile marketing del prodotto Granite. reddit "Chiedimi qualsiasi cosa" (AMA) sessione su r/LocalLLaMA.
Classe competitiva di piccoli modelli
IBM sta entrando in un mercato affollato e in rapida evoluzione di Small Language Models (SLM); Qwen3 compete con offerte come Gemma di Google, LFM2 di LiquidAI e persino i modelli densi di Mistral nello spazio dei parametri sub-2D.
Mentre OpenAI e Anthropic si concentrano su modelli che richiedono cluster GPU e ottimizzazione avanzata dell’inferenza, la famiglia Nano di IBM si rivolge agli sviluppatori che desiderano eseguire LLM ad alte prestazioni direttamente su hardware nativo o vincolato.
Nei test comparativi, i nuovi modelli IBM sono costantemente in cima alle classifiche delle loro classi. Secondo i dati Condiviso su X da David Cox, Vice Presidente di AI Models presso IBM Research:
-
In IFEval (istruzioni di seguito) Granite-4.0-H-1B ha ottenuto 78,5, superando Qwen3-1.7B (73,1) e altri modelli 1-2B.
-
Nel BFCLv3 (richiamo funzione/strumento) il Granite-4.0-1B ha guidato con 54,8 punti, il punteggio più alto nella sua classe di dimensioni.
-
Nei benchmark di sicurezza (SALAD e AttaQ), i modelli Granite hanno sovraperformato i concorrenti di dimensioni simili ottenendo un punteggio superiore al 90%.
Nel complesso, Granite-4.0-1B ha ottenuto un punteggio benchmark medio leader del 68,3% in cultura generale, matematica, codice e sicurezza.
Questa prestazione è particolarmente importante considerando i vincoli hardware per i quali sono progettati questi modelli.
Richiedono meno memoria, funzionano più velocemente su CPU o dispositivi mobili e non richiedono infrastruttura cloud o accelerazione GPU per fornire risultati utilizzabili.
Perché le dimensioni dei modelli contano ancora, ma non sono più quelle di una volta
Nella prima ondata di Master, più grande significava meglio; Più parametri significavano una migliore generalizzazione, un ragionamento più approfondito e un risultato più ricco.
Ma con il maturare della ricerca sui trasformatori, è diventato chiaro che l’architettura, la qualità dell’addestramento e la messa a punto specifica dell’attività potevano consentire ai modelli più piccoli di funzionare ben al di sopra della loro classe di peso.
IBM conta su questa evoluzione. Introducendo modelli piccoli e aperti competitivo nelle attività del mondo realeCon , l’azienda offre un’alternativa alle API AI monolitiche che dominano lo stack di applicazioni di oggi.
I modelli Nano, infatti, soddisfano tre esigenze sempre più importanti:
-
Flessibilità di distribuzione — funzionano ovunque, dai dispositivi mobili ai microserver.
-
Privacy dell’inferenza — gli utenti possono mantenere i dati locali senza dover ricorrere alle API cloud.
-
Apertura e verificabilità — il codice sorgente e i pesi dei modelli sono disponibili al pubblico con una licenza aperta.
Risposta della comunità e segnali della roadmap
Il team Granite di IBM non solo ha portato i modelli sul mercato, ma anche La comunità open source di Reddit r/LocalLLaMA Interagire direttamente con gli sviluppatori.
In un thread in stile AMA, Emma (Product Marketing, Granite) ha risposto a domande tecniche, ha affrontato problemi relativi alle convenzioni di denominazione e ha accennato a cosa verrà dopo.
Affermazioni notevoli dal thread:
-
Un modello Granite 4.0 più grande è attualmente in fase di formazione
-
Modelli orientati al ragionamento ("controparti pensanti") in cantiere
-
IBM rilascerà presto ricette di modifica e un tutorial completo
-
Maggiore compatibilità di strumenti e piattaforme sulla tabella di marcia
Gli utenti hanno risposto con entusiasmo alle capacità dei modelli, soprattutto nel seguire le istruzioni e nei compiti di risposta strutturata. Un commentatore ha riassunto la questione come segue:
“Questo è un numero elevato se è vero per il modello 1D; se la qualità è buona e fornisce un output coerente. Attività di chiamata di funzione, finestre di dialogo multilingue, completamenti FIM… questo può essere un vero cavallo di battaglia.”
Un altro utente ha dichiarato:
“Il Granite Tiny è già stato la mia prima scelta durante le ricerche sul web su LM Studio; è migliore di alcuni modelli Qwen. Non vedo l’ora di provare il Nano.”
Background: IBM Granite e la corsa all’intelligenza artificiale aziendale
Il lavoro di IBM su modelli linguistici di grandi dimensioni inizia sul serio con il lancio della famiglia di modelli base Granite alla fine del 2023. Granito.13b.istruzioni E granito.13b.chat. Questi primi modelli basati solo su decoder rilasciati per l’uso sulla piattaforma Watsonx hanno segnalato il desiderio di IBM di costruire sistemi di intelligenza artificiale di livello aziendale che diano priorità a trasparenza, efficienza e prestazioni. L’azienda ha reso disponibili modelli di codice Granite open source selezionati con la licenza Apache 2.0 a metà del 2024, ponendo le basi per un’adozione più ampia e la sperimentazione da parte degli sviluppatori.
Il vero punto di svolta è arrivato nell’ottobre 2024 con Granite 3.0, una suite completamente open source di modelli generici e specifici di dominio che vanno dai parametri da 1B a 8B. Questi modelli enfatizzavano l’efficienza su scala grossolana offrendo funzionalità come finestre di contesto più lunghe, ottimizzazione delle istruzioni e guardrail integrati. IBM ha posizionato Granite 3.0 come concorrente diretto di Llama di Meta, Qwen di Alibaba e Gemma di Google; ma ciò è avvenuto da una prospettiva aziendale unica. Le versioni successive, tra cui Granite 3.1 e Granite 3.2, hanno introdotto innovazioni ancora più adatte all’azienda: rilevamento integrato delle allucinazioni, previsione delle serie temporali, modelli di visualizzazione dei documenti e passaggi di ragionamento condizionale.
Rilasciata nell’ottobre 2025, la famiglia Granite 4.0 rappresenta la versione tecnicamente più ambiziosa di IBM fino ad ora. Presenta un’architettura ibrida che unisce trasformatore e strati Mamba-2, con l’obiettivo di combinare la sensibilità contestuale dei meccanismi di attenzione con l’efficienza della memoria dei modelli spazio-stato. Questo design consente a IBM di ridurre in modo significativo i costi di memoria e latenza per l’inferenza, consentendo ai modelli Granite di essere utilizzabili su hardware più piccolo e superando le loro controparti nelle attività di tracciamento delle istruzioni e di chiamata di funzioni. Il lancio include anche la certificazione ISO 42001, la firma del modello crittografico e la distribuzione su piattaforme come Hugging Face, Docker, LM Studio, Ollama e watsonx.ai.
Nel corso di tutte le iterazioni, l’obiettivo di IBM è stato chiaro: creare modelli di intelligenza artificiale affidabili, efficienti e giuridicamente chiari per casi d’uso aziendali. Con la sua permissiva licenza Apache 2.0, benchmark pubblici e enfasi sulla governance, l’iniziativa Granite non solo risponde alle crescenti preoccupazioni sui modelli proprietari di scatole nere, ma offre anche una chiara alternativa compatibile con l’Occidente al rapido avanzamento di team come Qwen di Alibaba. In tal modo, Granite posiziona IBM come voce leader in quella che potrebbe essere la prossima fase dell’intelligenza artificiale ad alta intensità aperta e pronta per la produzione.
Verso un’efficienza scalabile
Dopotutto, il lancio da parte di IBM dei modelli Granite 4.0 Nano riflette un cambiamento strategico nello sviluppo LLM: dal monitoraggio dei record di conteggio dei parametri all’ottimizzazione dell’usabilità, dell’apertura e dell’accesso alla distribuzione.
Combinando prestazioni competitive, pratiche di sviluppo responsabile e un profondo impegno con la comunità open source, IBM sta posizionando Granite non solo come famiglia modello ma anche come piattaforma per costruire la prossima generazione di sistemi IA leggeri e affidabili.
La versione Nano offre un segnale convincente a sviluppatori e ricercatori che cercano prestazioni senza costi aggiuntivi: non sono necessari 70 miliardi di parametri per costruire qualcosa di potente; ti servono solo quelli giusti.















