Nonostante le turbolenze politiche nel settore dell’intelligenza artificiale negli Stati Uniti, i progressi dell’intelligenza artificiale in Cina continuano senza sosta.

Oggi, i ricercatori del Qwen AI Team del colosso dell’e-commerce Alibaba hanno presentato il loro ultimo lotto, concentrandosi principalmente sullo sviluppo e sulla fornitura al mondo di una famiglia in crescita di linguaggio Qwen open source potente e capace e di modelli di intelligenza artificiale multimodale: Serie di modelli piccoli Qwen3.5è costituito da:

  • Qwen3.5-0.8B e 2B: Due modelli, entrambi ottimizzati "minuscolo" E "veloce" Prestazioni per la prototipazione e l’utilizzo su dispositivi edge in cui la durata della batteria è fondamentale.

  • Qwen3.5-4B: Una potente base multimodale per broker leggeri, che supporta nativamente 262.144 finestre di contesto token.

  • Qwen3.5-9B Un modello di ragionamento compatto che supera di 13,5 volte il modello open source gpt-oss-120B del rivale statunitense OpenAI rispetto ai principali benchmark di terze parti, tra cui la conoscenza multilingue e il ragionamento universitario

Per mettere questo in prospettiva, questi modelli sono nell’ordine dei più piccoli modelli per uso generale recentemente spediti da qualsiasi laboratorio in tutto il mondo e sono paragonabili alla filiale del MIT. Serie LFM2 di LiquidAIHa anche diverse centinaia di milioni o miliardi di parametri, sui trilioni stimati di parametri (impostazioni del modello) utilizzati secondo quanto riferito per i modelli di punta delle serie OpenAI, Anthropic e Gemini di Google.

I pesi dei modelli sono attualmente disponibili in tutto il mondo con le licenze Apache 2.0; Perfetto per uso aziendale e commerciale, è disponibile anche la personalizzazione quando richiesto. Volto che abbraccia E Ambito del modello.

Tecnologia: efficienza ibrida e multimodalità locale

La base tecnica della piccola serie Qwen3.5 è un allontanamento dalle architetture Transformer standard. Alibaba si è spostata verso un’architettura ibrida efficiente, che combina Gated Delta Networks (un tipo di attenzione lineare) con una sparsa miscela di esperti (MoE).

Questo approccio ibrido "muro della memoria" questo generalmente limita i modelli piccoli; Utilizzando le reti Gated Delta, i modelli raggiungono un throughput più elevato e una latenza significativamente inferiore durante l’inferenza.

Inoltre, questi modelli sono intrinsecamente multimodali. A differenza delle generazioni precedenti "imbullonato" Qwen3.5, un codificatore di immagini di un modello di testo, è stato addestrato utilizzando la fusione iniziale su token multimodali. Ciò consente ai modelli 4D e 9D di dimostrare un livello di comprensione visiva, come la lettura degli elementi dell’interfaccia utente o il conteggio degli oggetti in un video, che in precedenza richiedeva modelli dieci volte più grandi.

Segno di riferimento "Piccolo" serie: prestazioni che sfidano la scala

I dati di riferimento recentemente rilasciati mostrano quanto aggressivamente questi modelli compatti competono, e spesso superano, standard di settore molto più ampi. Le varianti Qwen3.5-9B e Qwen3.5-4B dimostrano un salto generazionale in termini di efficienza, soprattutto nei compiti multimodali e di ragionamento.

Dominanza multimodale: Nella valutazione del ragionamento visivo MMMU-Pro, il Qwen3.5-9B ha ottenuto un punteggio di 70,1, superando il Gemini 2.5 Flash-Lite (59,7) e persino il Qwen3-VL-30B-A3B personalizzato (63,0).

Ragionamento a livello post-laurea: Nel benchmark GPQA Diamond, il modello 9B ha ottenuto 81,7 punti, superando gpt-oss-120b (80,1) con un numero di parametri più di dieci volte superiore.

Capire il video: Questa serie offre prestazioni d’élite nel ragionamento video. Nel confronto Video-MME (sottotitolato), Qwen3.5-9B ha ottenuto 84,5 punti, mentre 4B ha ottenuto 83,5 punti, superando significativamente Gemini 2.5 Flash-Lite (74,6).

Abilità matematica: Nella valutazione dell’HMMT di febbraio 2025 (torneo di matematica Harvard-MIT), il modello 9B ha ricevuto 83,2 punti, mentre il modello 4D ha ricevuto 74,0 punti, dimostrando che la logica STEM di alto livello non richiede più grandi cluster computazionali.

Documenti e informazioni multilingue: La variante 9B è leader nel riconoscimento dei documenti con un punteggio di 87,7 in OmniDocBench v1.5. Nel frattempo, il miglior multilingue mantiene la sua presenza su MMMLU con un punteggio di 81,2, superando gpt-oss-120b (78,2).

Reazioni della comunità: "più intelligenza, meno elaborazione"

Sulla scia del rilascio della scorsa settimana del già estremamente piccolo e potente open source Qwen3.5-Medium, che può essere eseguito su una singola GPU, l’annuncio della serie di modelli Qwen3.5-Small e il loro ingombro e requisiti di elaborazione ancora più ridotti consentono agli sviluppatori di "priorità locale" AI.

"Più intelligenza, meno elaborazione" Ha risuonato con gli utenti alla ricerca di alternative ai modelli basati su cloud.

Formatore in intelligenza artificiale e tecnologia Paolo Covert Il rapporto di Blueshell AI ha catturato lo shock del settore riguardo a questo balzo della produttività.

"Com’è possibile?" Chiuso Ha scritto a X. "Qwen ha rilasciato 4 nuovi modelli e la versione 4B è capace quasi quanto il precedente modello 80B A3B. E 9B è buono quanto GPT OSS 120b e 13 volte più piccolo!"

L’analisi di Couvert evidenzia le conseguenze pratiche di questi risultati architettonici:

  • "Possono funzionare su qualsiasi laptop"

  • "0,8B e 2B per il tuo telefono"

  • "Offline e open source"

come sviluppatore Karan Kendre del Kargul Studio ha dichiarato:: "questi modelli possono essere eseguiti in modo nativo sul mio MacBook Air M1 gratuitamente."

questa sensazione "incredibile" l’accessibilità risuona in tutto l’ecosistema degli sviluppatori. Un utente ha visualizzato il modello 4D "forte base multimodale" Uno "punto di svolta per gli sviluppatori mobili" Coloro che necessitano di funzionalità di lettura dello schermo senza un carico elevato della CPU.

Infatti sviluppatore di Hugging Face – ha osservato Xenova La nuova serie Qwen3.5 Small Model può anche essere eseguita direttamente nel browser web dell’utente ed eseguire operazioni complesse e computazionalmente impegnative come l’analisi video.

I ricercatori hanno anche elogiato il lancio di Modelli base e versioni InstructHa affermato di aver fornito un supporto significativo al progetto "innovazione industriale nel mondo reale."

Il rilascio dei modelli Base è particolarmente apprezzato dai team aziendali e di ricerca perché "pagina vuota" che non sono guidati da alcun dato specifico RLHF (Reinforced Learning from Human Feedback) o SFT (Supervised Fine-Tuning), che spesso "rifiuti" o certi stili di discorso difficili da riprendere.

Ora, con i modelli Base, coloro che desiderano personalizzare il modello per adattarlo a compiti e scopi specifici hanno un punto di partenza più semplice; perché ora possono implementare i propri adeguamenti delle istruzioni e processi post-formazione senza dover smantellare quelli di Alibaba.

Licensing: una vittoria per l’ecosistema aperto

Alibaba ha rilasciato i pesi e i file di configurazione della serie Qwen3.5 sotto la licenza Apache 2.0. Questa licenza permissiva consente l’uso commerciale, la modifica e la distribuzione senza pagamento di royalties. "blocco del venditore" È associato ad API proprietarie.

  • Uso commerciale: Gli sviluppatori possono integrare modelli in prodotti commerciali senza royalty.

  • Modifica: I team possono modificare (SFT) o applicare RLHF per creare versioni personalizzate.

  • Distribuzione: I modelli possono essere ridistribuiti in applicazioni AI native come Ollama.

Contestualizzare la notizia: Perché i minori sono così importanti in questo momento?

Il rilascio di Qwen3.5 Small Series è in arrivo "Riorganizzazione dell’agenzia." Ci siamo lasciati alle spalle i semplici chatbot; L’obiettivo ora è l’autonomia. Ci deve essere un rappresentante autonomo "pensare" (motivo), "Da vedere" (multimodalità) e "comportarsi" (uso del veicolo). Anche se farlo con modelli da trilioni di parametri sarebbe proibitivo, un Qwen3.5-9B nativo potrebbe eseguire questi cicli a una frazione del costo.

Alibaba ha adattato il Reinforcement Learning (RL) ad ambienti con milioni di agenti, conferendo a questi piccoli modelli le seguenti caratteristiche: "giudizio centrato sull’uomo," Consente loro di raggiungere obiettivi in ​​più fasi, come convertire un desktop o effettuare il reverse engineering di filmati di gioco in codice. La serie Qwen3.5, che si tratti del modello 0.8B in esecuzione sullo smartphone o del modello 9B che alimenta il terminale di codifica, "epoca dell’agente."

Serie Qwen3.5 "pezzi di conversazione" con "agenti multimodali nazionali" trasformare il modo in cui le aziende possono distribuire l’intelligence. Stimolando ragionamenti sofisticati "bordo"Con dispositivi individuali e server locali, le organizzazioni possono automatizzare attività che in precedenza richiedevano costose API cloud o operazioni a latenza elevata.

Pratiche e considerazioni strategiche aziendali

I modelli da 0,8B a 9B sono stati riprogettati per garantire efficienza utilizzando un’architettura ibrida che attiva solo le parti necessarie della rete per ciascuna attività.

  • Automazione del flusso di lavoro visivo: Utilizzo "messa a terra a livello di pixel," questi modelli possono navigare nelle interfacce utente desktop o mobili, compilare moduli e organizzare file in base alle istruzioni in linguaggio naturale.

  • Analisi di documenti complessi: Con punteggi superiori al 90% sui criteri di comprensione dei documenti, possono sostituire OCR separati e pipeline di analisi del layout per estrarre dati strutturati da diversi moduli e grafici.

  • Codifica e refactoring autonomi: Le organizzazioni possono inserire interi repository (fino a 400.000 righe di codice) in 1 milione di finestre di contesto per refactoring pronti per la produzione o debug automatizzato.

  • Analisi dei bordi in tempo reale: I modelli 0.8B e 2D sono progettati per dispositivi mobili e consentono il riepilogo video offline (fino a 60 secondi a 8 FPS) e il ragionamento spaziale senza sacrificare la durata della batteria.

La tabella seguente riassume quali funzioni aziendali trarrebbero maggiori vantaggi dall’implementazione locale di un modello di piccole dimensioni.

Funzione

Beneficio primario

Esempio di utilizzo della chiave

Ingegneria del software

Intelligenza del codice nativo

Refactoring a livello di repository e codifica mediata basata su terminale.

Operazioni e IT

Automazione sicura

Automatizza in modo nativo le impostazioni di sistema in più fasi e le attività di gestione dei file.

Prodotto ed esperienza dell’utente

Interazione sui bordi

Integrazione del ragionamento multimodale nativo direttamente nelle applicazioni mobili/desktop.

Dati e analisi

Estrazione efficiente

OCR di alta qualità ed estrazione di dati strutturati da report visivi complessi.

Sebbene questi modelli siano estremamente capaci, sono su piccola scala e "agente" la natura introduce alcune caratteristiche operative "bandiere" Le squadre devono guardare.

  • Cascata di allucinazioni: multi-passo "agente" un piccolo errore in una fase iniziale del flusso di lavoro, "cascata" Fallimenti in cui l’agente segue un piano errato o inutile.

  • Debug e codifica greenfield: Mentre questi modelli sono eccellenti per scrivere nuovi "campo verde" Potrebbero avere difficoltà a eseguire il debug del codice o ad apportare modifiche a sistemi legacy complessi e esistenti.

  • Richieste di memoria e VRAM: Pari "Piccolo" i modelli (come 9D) richiedono quantità significative di VRAM per l’inferenza ad alto throughput; IL "impronta di memoria" il numero totale di parametri rimane comunque elevato in quanto occupa spazio sulla GPU.

  • Modifica e posizionamento dei dati: L’utilizzo di modelli di un fornitore con sede in Cina può causare problemi di residenza dei dati in alcune giurisdizioni; ma la versione openweight di Apache 2.0, "dominante" nubi locali.

Le aziende devono dare priorità "verificabile" attività come codifica, matematica o seguire istruzioni in cui l’output può essere controllato automaticamente in base a regole predefinite "hacking di taglie" o fallimenti silenziosi.

Collegamento alla fonte