Alibaba elimina Qwen3.5 È stato programmato per coincidere con il Capodanno lunare all’inizio di questa settimana, e i numeri dei titoli da soli sono sufficienti per far sì che gli acquirenti di IA aziendali si fermino a prenderne atto.
Il nuovo modello openweight di punta – Qwen3.5-397B-A17B – ospita un totale di 397 miliardi di parametri ma ne attiva solo 17 miliardi per token. Afferma di aver vinto il benchmark rispetto al suo precedente fiore all’occhiello, il Qwen3-Max, un modello che secondo Alibaba supera un trilione di parametri.
Questa versione segna un momento significativo nell’approvvigionamento di IA aziendale. Qwen 3.5 offre un diverso tipo di argomentazione ai leader IT che valutano l’infrastruttura AI per il 2026: il modello che puoi effettivamente eseguire, possedere e controllare può ora competere testa a testa con i modelli che devi noleggiare.
Una nuova architettura costruita per la velocità su larga scala
La storia ingegneristica di Qwen3.5 inizia con i suoi antenati. Il modello è il diretto successore dello sperimentale Qwen3-Next, un modello MoE ultra-sparso presentato in anteprima lo scorso settembre ma ampiamente considerato semi-addestrato. Qwen3.5 prende questa direzione architetturale e si adatta in modo aggressivo, passando dai 128 esperti dei precedenti modelli Qwen3 MoE ai 512 esperti della nuova versione.
L’implicazione pratica di questo e di un migliore meccanismo di attenzione è che la latenza di inferenza viene significativamente ridotta. Poiché solo 17 miliardi di questi 397 miliardi di parametri sono attivi per ogni passaggio in avanti, il dominio computazionale è molto più vicino al modello denso 17D che al 400B; nel frattempo, il modello può sfruttare tutta la profondità del pool di esperti per ragionamenti specifici.
Questi guadagni di velocità sono piuttosto significativi. Con una lunghezza di contesto di 256K, Qwen 3.5 decodifica 19 volte più velocemente di Qwen3-Max e 7,2 volte più velocemente di 235B-A22B di Qwen 3.
Alibaba afferma inoltre che il modello costa il 60% in meno rispetto al suo predecessore ed è otto volte più capace di gestire grandi carichi di lavoro simultanei; Questi sono numeri estremamente importanti per qualsiasi squadra che presti attenzione ai conti di assunzione. Allo stesso tempo circa 118° il costo di Google Gemini 3 Pro.
Altre due decisioni architettoniche combinano questi risultati:
-
Qwen3.5 adotta la previsione multi-token – un approccio sperimentato in diversi modelli proprietari – accelera la convergenza pre-formazione e aumenta l’efficienza.
-
Allo stesso tempo eredita il sistema di attenzione Qwen3-Avanti Rilasciato lo scorso anno, è stato specificamente progettato per ridurre la pressione della memoria su contesti di durata molto lunga.
Il risultato è un modello che può essere eseguito comodamente all’interno di una finestra di contesto di 256K nella versione openweight e fino a 1 milione di token nella variante Qwen3.5-Plus ospitata su Alibaba Cloud Model Studio.
Multimodale locale, non imbullonato
Per anni Alibaba ha adottato l’approccio standard del settore: creare un modello linguistico, quindi aggiungere un codificatore di immagini per creare una variante VL separata. Qwen3.5 abbandona completamente questo modello. Il modello viene addestrato da zero su testo, immagini e video contemporaneamente; Ciò significa che il ragionamento visivo è incorporato nelle rappresentazioni sottostanti del modello piuttosto che innestato su di esso.
Questo è importante nella pratica. Naturalmente, i modelli multimodali tendono a sovraperformare le loro controparti basate su adattatori su attività che richiedono un rigoroso ragionamento testo-immagine: si pensi all’analisi e alla documentazione di un diagramma tecnico, all’elaborazione di schermate dell’interfaccia utente per attività intermedie o all’estrazione di dati strutturati da layout visivi complessi. Su MathVista, il modello ottiene un punteggio di 90,3; A MMMU, 85.0. Segue il Gemini 3 in alcuni benchmark specifici per la visione, ma supera il Claude Opus 4.5 nelle attività multimodali e registra numeri competitivi rispetto a GPT-5.2; Inoltre, trasporta una frazione molto piccola del numero di parametri.
Le prestazioni di riferimento di Qwen3.5 rispetto ai modelli proprietari più grandi sono il numero che guiderà le conversazioni aziendali.
Secondo i benchmark pubblicati da Alibaba, il modello 397B-A17B supera il Qwen3-Max, un modello con più di un trilione di parametri, in molteplici attività di ragionamento e codifica.
Afferma inoltre risultati competitivi rispetto a GPT-5.2, Claude Opus 4.5 e Gemini 3 Pro nel ragionamento generale e nei benchmark di codifica.
Copertura linguistica ed efficienza dei token
Un dettaglio sottovalutato nella versione Qwen3.5 è il suo accesso multilingue ampliato. Il vocabolario del modello è aumentato da 150.000 a 250.000 tokenizzatori nelle precedenti generazioni di Qwen ed è ora paragonabile al tokenizzatore da ~256.000 di Google. Il supporto linguistico si espande a 201 lingue e dialetti, rispetto ai 119 di Qwen 3.
L’aggiornamento del tokenizzatore ha implicazioni dirette sui costi per le distribuzioni globali. I vocabolari più ampi codificano gli alfabeti non latini (arabo, tailandese, coreano, giapponese, hindi e altri) in modo più efficiente, riducendo il numero di token del 15-40% a seconda della lingua. Per le organizzazioni IT che utilizzano l’intelligenza artificiale su larga scala su basi di utenti multilingue, questo non è un dettaglio accademico. Ciò si traduce direttamente in costi di inferenza inferiori e tempi di risposta più rapidi.
Funzionalità dell’agente e integrazione OpenClaw
Alibaba posiziona chiaramente Qwen3.5 come modello intermediato; un modello progettato non solo per rispondere alle domande ma per eseguire azioni autonome in più fasi per conto di utenti e sistemi. L’azienda dispone di Qwen Code open source, un’interfaccia a riga di comando che consente agli sviluppatori di delegare complesse attività di codifica al modello del linguaggio naturale; Questo è più o meno simile al Codice Claude di Anthropic.
La versione evidenzia anche la compatibilità con OpenClaw, il framework middleware open source che quest’anno ha visto un’impennata nell’adozione da parte degli sviluppatori. Con 15.000 diversi ambienti di formazione con apprendimento per rinforzo utilizzati per sviluppare la logica del modello e l’implementazione dei compiti, il team Qwen ha fatto una scommessa consapevole sulla formazione basata su RL per migliorare le prestazioni pratiche degli agenti, una tendenza coerente con quanto dimostrato da MiniMax con M2.5.
La variante ospitata di Qwen3.5-Plus consente anche modalità di inferenza adattiva: una modalità veloce per applicazioni sensibili alla latenza, una modalità di pensiero che consente un ragionamento con catena di pensiero estesa per attività complesse e una modalità automatica (adattativa) che seleziona dinamicamente. Questa flessibilità è importante per le implementazioni aziendali, in cui potrebbe essere necessario che lo stesso modello gestisca sia le interazioni con i clienti in tempo reale che i flussi di lavoro di analisi approfondita.
Fatti di distribuzione: cosa devono veramente sapere i team IT
L’esecuzione dei pesi aperti di Qwen3.5 in locale richiede hardware serio. Una versione misurata richiede circa 256 GB di RAM e realisticamente 512 GB per uno spazio confortevole. Questo non è un modello per una workstation o un server locale modesto. Ciò per cui è adatto è un nodo GPU; Si tratta di una configurazione che molte organizzazioni già utilizzano per i carichi di lavoro di inferenza e ora offre un’alternativa interessante alle distribuzioni dipendenti dalle API.
Tutti i modelli Qwen 3.5 open-heavy sono rilasciati con la licenza Apache 2.0. Questa è una distinzione significativa rispetto ai modelli con licenze proprietarie o limitate: Apache 2.0 consente l’uso commerciale, la modifica e la ridistribuzione senza royalty, senza l’aggiunta di stringhe significative. Per i team legali e di procurement che prendono in considerazione modelli aperti, questa posizione pulita in materia di licenze semplifica notevolmente la conversazione.
Qual è il prossimo passo?
Alibaba ha confermato che questa non è la versione completa ma la prima versione della famiglia Qwen3.5. Basandosi sul modello Qwen3, che comprende modelli con un massimo di 600 milioni di parametri, l’industria prevede che nelle prossime settimane e mesi seguiranno modelli più piccoli e densamente distillati e ulteriori configurazioni MoE. Si pensava che il modello Qwen3-Next 80B dello scorso settembre fosse sottodimensionato e probabilmente un modello 3.5 di questa scala sarebbe stato rilasciato a breve termine.
Per i decisori IT, le prospettive sono chiare. Alibaba ha dimostrato che i modelli di frontiera ad alto deficit non sono più un compromesso. Qwen3.5 è un vero acquisto per i team che desiderano un ragionamento di classe edge, funzionalità multimodali native e una finestra di contesto da 1 milione di token senza essere vincolati a un’API proprietaria. La domanda successiva non è se questa famiglia modello sia sufficientemente capace. Dipende se la tua infrastruttura e il tuo team sono pronti a trarne vantaggio.
Qwen 3.5 Disponibile ora su Hugging Face Con l’ID modello Qwen/Qwen3.5-397B-A17B. La variante Qwen3.5-Plus ospitata è disponibile da: Studio del modello cloud di Alibaba. alla chat di Qwen chat.qwen.ai Offre accesso pubblico gratuito per la valutazione.















