Le organizzazioni che si destreggiano tra modelli separati per ragionamento, attività multimodali e codifica di agenzia possono semplificare il proprio stack: il nuovo Small 4 di Mistral combina tutti e tre in un unico modello open source con livelli di ragionamento regolabili.
Small 4 entra in un campo affollato di piccoli modelli come Qwen e Claude Haiku che competono sui costi di inferenza e sulle prestazioni di riferimento. La proposta di Mistral: throughput più brevi si traducono in una latenza inferiore e token più economici.
Mistral Small 4 aggiorna Mistral Small 3.2, rilasciato a giugno 2025 e disponibile con licenza Apache 2.0. “Con Small 4, gli utenti non devono più scegliere tra un modello di istruzioni veloce, un potente motore di ragionamento o un assistente multimodale: un modello ora offre tutti e tre con uno sforzo di ragionamento configurabile e la migliore efficienza della categoria”, ha affermato Mistral. un post sul blog.
La società ha affermato che, nonostante le sue dimensioni ridotte (Mistral Small 4 ha un totale di 119 miliardi di parametri con solo 6 miliardi di parametri attivi per token), il modello combina le capacità di tutti i modelli Mistral. Ha le capacità di ragionamento di Magistral, la comprensione multimodale di Pixtral e le prestazioni di codifica ad agenti di Devstral. C’è anche una finestra di contesto da 256K, che secondo l’azienda funziona bene per conversazioni e analisi a lungo termine.
Rob May, co-fondatore e CEO del piccolo mercato di modelli linguistici Neurometric, ha dichiarato a VentureBeat che Mistral Small 4 si distingue per la sua flessibilità architetturale. Tuttavia, si aggiunge a un numero crescente di modelli più piccoli che rischiano di creare un’ulteriore frammentazione del mercato.
"”Dal punto di vista tecnico, sì, può essere competitivo rispetto ad altri modelli”, ha affermato May. “Il problema più grande è che deve superare la confusione nel mercato. Mistral deve prima conquistare la condivisione per avere la possibilità di far parte di questo set di test. Solo allora potranno dimostrare le capacità tecniche del modello.”
Giudizio su richiesta
I modelli più piccoli offrono comunque buone opzioni per i costruttori aziendali che desiderano ottenere la stessa esperienza LLM a un costo inferiore.
Il modello, come altri modelli Mistral, è costruito su un’architettura che è una miscela di esperti. Ci sono 128 esperti, ciascuno con quattro token attivi, che secondo Mistral consentono un ridimensionamento e una specializzazione efficienti.
Ciò consente al Mistral Small 4 di rispondere più velocemente, anche a risultati più impegnativi. Può anche elaborare e ragionare su testo e immagini, consentendo agli utenti di analizzare documenti e grafica.
Mistral ha affermato che il modello ha un nuovo parametro chiamato Reasoning_efort che consente agli utenti di “regolare dinamicamente il comportamento del modello”. Secondo Mistral, le aziende saranno in grado di configurare Small 4 per fornire risposte rapide e leggere nello stesso stile di Mistral Small 3.2, o renderlo più potente sulla scia di Magistral fornendo un ragionamento passo passo per compiti complessi.
Mistral ha affermato che lo Small 4 funziona con meno chip rispetto a modelli simili, con una configurazione consigliata di quattro Nvidia HGX H100 o H200 o due Nvidia DGX B200.
“La fornitura di modelli AI open source avanzati richiede un’ottimizzazione approfondita. Grazie alla stretta collaborazione con Nvidia, le inferenze sono state ottimizzate sia per vLLM open source che per SGLang, garantendo un servizio efficiente e ad alto rendimento in tutti gli scenari di implementazione”, ha affermato Mistral.
Prestazioni a confronto
Secondo i criteri Mistral, Small 4 si avvicina al livello di Mistral Medium 3.1 e Mistral Large 3, soprattutto in MMLU Pro.
Mistral ha affermato che le prestazioni che seguono le istruzioni rendono Small 4 adatto per attività aziendali ad alto volume come la comprensione dei documenti.
Competendo con altri modelli più piccoli di altre aziende, lo Small 4 continua a sottoperformare altri popolari modelli open source, soprattutto su compiti ad alta intensità di ragionamento. Qwen 3.5 122B e Qwen 3-next 80B superano Small 4 in LiveCodeBench; proprio come fa Claude Haiku in modalità istruzione.
Mistral Small 4 è riuscito a battere il GPT-OSS 120B di OpenAI in LCR.
Mistral sostiene che Small 4 raggiunge questi punteggi con “throughput significativamente più brevi”, il che significa costi di inferenza e latenza inferiori rispetto ad altri modelli. Lo Small 4 produce gli output più brevi di tutti i modelli testati, soprattutto in modalità istruzione; 14,2K caratteri contro 2,1K caratteri per Claude Haiku e 23,6K caratteri per GPT-OSS 120B. Nella modalità di ragionamento gli output sono molto più lunghi (18,7K), come previsto per questo caso d’uso.
May ha affermato che, sebbene la selezione del modello dipenda dagli obiettivi di un’organizzazione, la latenza è uno dei tre pilastri a cui deve dare priorità. “Dipende dai tuoi obiettivi e da cosa stai ottimizzando la tua architettura per raggiungere. Le aziende dovrebbero dare priorità a questi tre pilastri: affidabilità e throughput strutturato, rapporto latenza/intelligenza, modificabilità e privacy”, ha affermato May.














