Home Politica I nuovi modelli Qwen3.5-Medium open source di Alibaba offrono prestazioni Sonnet 4.5...

Politica

I nuovi modelli Qwen3.5-Medium open source di Alibaba offrono prestazioni Sonnet 4.5 su PC nativi

27 Febbraio 2026

L’ormai famoso team di sviluppo AI Qwen di Alibaba lo ha fatto di nuovo: poco più di un giorno fa, Serie di modelli medi Qwen3.5 Si compone di quattro nuovi principali modelli linguistici (LLM) che supportano il ride-hailing degli agenti; tre di questi sono disponibili per uso commerciale da parte di organizzazioni e sviluppatori indipendenti sotto la licenza standard open source Apache 2.0:

Qwen3.5-35B-A3B
Qwen3.5-122B-A10B
Qwen3.5-27B

Gli sviluppatori possono scaricarli ora da: viso abbracciato E Ambito del modello. Un quarto modello, Qwen3.5-Flash, è proprietario ed unico API Alibaba Cloud Model Studioma offre comunque un forte vantaggio in termini di costi rispetto ad altri modelli in Occidente (vedi tabella comparativa dei prezzi di seguito).

Ma il grande cambiamento con i modelli open source è che le principali startup statunitensi come OpenAI o Anthropic offrono prestazioni relativamente elevate nei benchmark di terze parti con i loro modelli personalizzati di dimensioni simili, superando di fatto il GPT-5-mini di OpenAI e il secondo modello di Anthropic, Claude Sonnet 4.5, rilasciato cinque mesi fa.

E la squadra Qwen dice ha progettato questi modelli per rimanere estremamente accurati. "quantizzato," un processo che riduce ulteriormente l’impronta riducendo i numeri in cui sono archiviate le impostazioni del modello a un numero di valori molto inferiore.

Ancora più importante, questa versione offre: "livello limite" trasferire le finestre di contesto sul computer desktop. L’ammiraglia Qwen3.5-35B-A3B può ora superare 1 milione di lunghezze di contesto token su GPU di livello consumer con 32 GB di VRAM. Sebbene non sia alla portata di tutti, si tratta di una potenza di elaborazione molto inferiore rispetto a molte altre opzioni con prestazioni comparabili.

Questo salto è reso possibile dalla precisione quasi senza perdite con un peso di 4 bit e dalla quantizzazione della cache KV, che consente agli sviluppatori di elaborare set di dati di grandi dimensioni senza infrastruttura a livello di server.

Tecnologia: Forza Delta

Al centro delle prestazioni di Qwen 3.5 c’è un’architettura ibrida avanzata. Mentre molti modelli si basano esclusivamente su blocchi Transformer standard, Qwen 3.5 combina Gated Delta Networks con un sistema sparso Mix of Experts (MoE). Le specifiche tecniche del Qwen3.5-35B-A3B rivelano un design altamente efficiente:

Efficienza dei parametri: Sebbene il modello contenga complessivamente 35 miliardi di parametri, si limita ad attivarli. 3 miliardi per qualsiasi moneta.
Diversità degli esperti: Il livello MoE sfrutta 256 esperti, inclusi 8 esperti diretti e 1 esperto condiviso, che aiuta a mantenere le prestazioni riducendo la latenza di inferenza.
Quantizzazione quasi senza perdite: La serie mantiene l’alta fedeltà anche se compressa a pesi a 4 bit e riduce significativamente l’ingombro della memoria per la distribuzione locale.
Versione del modello base: Per supportare la comunità di ricerca, Alibaba lo ha reso open source. Qwen3.5-35B-A3B-Base Modello e versioni adattate alle istruzioni.

Prodotto: Intelligenza che ‘pensa’ per prima

Qwen introduce la versione 3.5 nativa "Modalità di pensiero" come stato predefinito. Prima di fornire una risposta definitiva, il modello crea una catena di ragionamenti interni limitata a: <think> Tag: per lavorare su una logica complessa. La linea di prodotti è progettata specificamente per diversi ambienti hardware:

Qwen3.5-27B: Ottimizzato per un throughput elevato, supportando una lunghezza del contesto di oltre 800.000 token.
Qwen3.5-Flash: Versione ospitata in produzione con lunghezza del contesto token predefinita di 1 milione e strumenti ufficiali integrati.
Qwen3.5-122B-A10B: Progettato per GPU di classe server (80 GB VRAM), questo modello riduce il divario rispetto ai modelli edge più grandi del mondo, supportando al tempo stesso lunghezze di contesto di oltre 1 milione.

I risultati del benchmark confermano questo cambiamento architetturale. Il modello 35B-A3B supera notevolmente i predecessori molto più grandi come il Qwen3-235B, così come i già citati proprietari GPT-5 mini e Sonnet 4.5, in categorie che includono informazioni (MMMLU) e ragionamento visivo (MMMU-Pro).

Prezzi e integrazione API

Per coloro che non ne dispongono, Alibaba Cloud Model Studio fornisce un’API competitiva per Qwen3.5-Flash.

Entrata: $ 0,1 per 1 milione di token
Uscita: $ 0,4 per 1 milione di token
Creazione della cache: $ 0,125 per 1 milione di token
Lettura cache: $ 0,01 per 1 milione di token

L’API dispone anche di un modello di prezzo dettagliato per la ricerca dei veicoli; La ricerca sul Web costa $ 10 ogni 1000 chiamate e Code Interpreter è attualmente disponibile gratuitamente per un periodo limitato.

Ciò rende Qwen3.5-Flash uno dei più convenienti da eseguire tramite API tra tutti i principali LLM del mondo. Vedi una tabella che li confronta di seguito:

Modello	Entrata	Uscita	Costo totale	Fonte
Qwen3Turbo	$ 0,05	$ 0,20	$ 0,25	AlibabaNuvola
Qwen3.5-Flash	$ 0,10	$ 0,40	$ 0,50	AlibabaNuvola
chat di ricerca approfondita (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	Ricerca approfondita
ragionatore di ricerca approfondito (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	Ricerca approfondita
Grok 4.1 Veloce (ragionamento)	$ 0,20	$ 0,50	$ 0,70	xAI
Grok 4.1 Veloce (non ragionante)	$ 0,20	$ 0,50	$ 0,70	xAI
MiniMax M2.5	$ 0,15	$ 1,20	$ 1,35	MiniMax
MiniMax M2.5-Lightning	$ 0,30	$ 2,40	$ 2,70	MiniMax
Anteprima Flash di Gemini 3	$ 0,50	$ 3,00	$ 3,50	Google
Kimi-k2.5	$ 0,60	$ 3,00	$ 3,60	colpo di luna
GLM-5	$ 1,00	$ 3,20	$ 4,20	Zai
ERNI 5.0	$ 0,85	$ 3,40	$ 4,25	baidu
ClaudeHaiku4.5	$ 1,00	$ 5,00	$ 6,00	antropico
Qwen3-Max (23/01/2026)	$ 1,20	$ 6,00	$ 7,20	AlibabaNuvola
Gemini 3 Pro (≤200.000)	$ 2,00	$ 12,00	$ 14,00	Google
GPT-5.2	$ 1,75	$ 14,00	$ 15,75	OpenAI
Claude Sonetto 4.5	$ 3,00	$ 15,00	$ 18,00	antropico
Gemini 3 Pro (>200K)	$ 4,00	$ 18,00	$ 22,00	Google
Chiudi Esegui 4.6	$ 5,00	$ 25,00	$ 30,00	antropico
GPT-5.2Pro	$ 21,00	$ 168,00	$ 189,00	OpenAI

Cosa significa questo per i leader tecnici e i decisori aziendali?

Con il rilascio dei modelli intermedi Qwen3.5, l’iterazione rapida e la messa a punto, una volta riservate a laboratori ben finanziati, sono ora disponibili per lo sviluppo interno presso molte aziende non tecniche, separando di fatto l’intelligenza artificiale complessa dalle grandi spese in conto capitale.

Questa architettura trasforma il modo in cui i dati vengono elaborati e protetti in tutta l’azienda. La capacità di acquisire in modo nativo archivi di documenti di grandi dimensioni o video su scala oraria consente un’analisi aziendale approfondita senza i rischi per la privacy delle API di terze parti.

Impiegando questi esperti "Mix di esperti" Con i modelli all’interno di un firewall privato, le organizzazioni possono mantenere il controllo sovrano sui propri dati mentre utilizzano i dati locali. "pensiero" Mod e funzionalità ufficiali di ride-hailing per creare agenti più affidabili e autonomi.

I primi ad adottare l’Hugging Face erano particolarmente interessati al modello "restringere il divario" In scenari d’azione in cui prima potevano competere solo i modelli chiusi più grandi.

Questo spostamento verso l’efficienza dell’architettura su larga scala garantisce che l’integrazione dell’intelligenza artificiale rimanga attenta ai costi, sicura e sufficientemente agile da tenere il passo con le esigenze operative in evoluzione.

Collegamento alla fonte

I nuovi modelli Qwen3.5-Medium open source di Alibaba offrono prestazioni Sonnet 4.5 su PC nativi

Tecnologia: Forza Delta

Prodotto: Intelligenza che ‘pensa’ per prima

Prezzi e integrazione API

Cosa significa questo per i leader tecnici e i decisori aziendali?

Ultimo post

Castellana Properties acquista centro commerciale Islazul per 340 milioni

La perdita di fiducia limita il potenziale di rialzo – Commerzbank

Programma del torneo di basket femminile SEC 2026: date, girone e...

Clonazione vocale Quen TTS in 3 secondi: configurazione, limitazioni e migliori...

Maduro ha accusato gli Stati Uniti di violare i suoi diritti...

Il dollaro USA si stabilizza mentre il sentiment del mercato peggiora

Notizie dall’Arsenal: il piano di trasferimento da 50 milioni di sterline...

L’EMA a 20 giorni funge da barriera principale, è probabile un...

Acerinox saluta il 2026 con previsioni di crescita dopo aver perso...

Riepilogo NBA: Trey all’ultimo secondo regala ai Suns una vittoria selvaggia...

Recensione Supercell AI: 1.000 annunci in 10 minuti e cos’altro può...

Il sostegno strutturale mantiene in gioco il rally – ING

Categoria