Vuoi una visione intelligente della tua casella di posta? AI Enterprise, solo ciò che conta per i dati e i leader della sicurezza, iscriviti ai nostri giornali settimanali. Iscriviti ora
Il gigante cinese di e-commerce Alibaba ha creato onde a livello globale in tecnologia e comunità professionali con il lancio dell’originale lingua Kinwen LLM Chatbot nell’aprile 2025 con il lancio del linguaggio originale Kinwen LLM Chatbot nell’aprile 2023, con la sua famiglia di modelli di grandi dimensioni di “Quvenric Ai”.
Perché?
Bene, non solo i suoi modelli sono potenti e hanno punteggi elevati sui test di riferimento di terze parti nel completare le attività di matematica, scienza, logica e scrittura, ma per la maggior parte delle parti, sono emessi in termini di licenza open source consentiti, organizzazioni e imprese consentono loro di scaricare, ottimizzarli, operare, gestire loro e usarli per tutti i tipi di scopi. Pensa a loro come un’alternativa a Deepsek.
Questa settimana, il “Qwen Team” di Alibaba, come divisione AI, ha rilasciato gli ultimi aggiornamenti per la loro famiglia Quven, e stanno già attirando più attenzione alle loro migliori prestazioni dagli utenti di AI Power in Occidente, in un caso, anche i nuovi modelli Kimi -2 sono stati rilasciati dalla Grandy cinese AI Startup Moonup.
La serie di impatto AI ritorna a San Francisco – 5 agosto
La prossima fase dell’intelligenza artificiale è qui – sei pronto? I leader di Block, GSK e SAP includono il modo in cui gli agenti autonomi stanno riorganizzando i flussi di lavoro aziendali, dal processo decisionale di tempo di tempo e automazione.
Ora protegge la tua posizione – lo spazio è limitato: https://bit.ly/3guuppl
Nuovo modello QWEN3-235B-A22B-2507 – emesso a AI Codice che condivide la comunità che abbraccia la faccia Con Una versione “Punto 8” o FP8Che tratteremo di seguito e migliora più profondamente dal Qwen 3 originale sull’attività, l’accuratezza fattuale e la comprensione multilingue. Migliora anche la versione “non pensante” di Cloud Oppus 4.
Il nuovo aggiornamento del modello QWEN3 fornisce anche risultati di codifica migliori, allineamento con le preferenze dell’utente e una lunga gestione, secondo i suoi creatori. Ma questo non è tutto …
Leggi cosa è più che questa impresa fornisce utenti e decisori tecnici.
La versione FP8 consente alle aziende di eseguire Qwen 3 con una memoria bassa e calcoli molto bassi
Oltre al nuovo modello QWEN3-235B-A22B-25507, Il team Qwen ha rilasciato una versione “FP8”Per il quale si erge Punto galleggiante a 8 bitUn formato che comprime il funzionamento numerico del modello per utilizzare la memoria bassa e la potenza di elaborazione, senza influire sulle sue prestazioni.
In pratica, ciò significa che le organizzazioni possono eseguire un modello con hardware piccole e meno costose o funzionalità QWEN3 più efficiente nel cloud. Il risultato è la capacità di distribuire senza la necessità di tempi di risposta rapidi, bassi costi energetici e infrastrutture su larga scala.
Ciò rende il modello FP8 attraente per l’ambiente di produzione con ritardi o costi particolarmente stretti. I team spaventano le capacità di QWEN3 per l’istanza GPU a livello singolo o le macchine di sviluppo locale, evitando la necessità di cluster multi-Multi-GPU su larga scala. Riduce anche l’ostruzione per la perfezione privata e lo spiegamento di onmanità, in cui le risorse infrastrutturali sono finanziate e possedute dai costi totali dei casi di proprietà.
Anche se il team Qwen non ha rilasciato il calcolo ufficiale, rispetto allo stesso FP8, i risparmi di efficienza sono sufficienti. Ecco un’illustrazione pratica:
Metrica | Edizione FP16 (istruzioni) | Edizione FP8 (istruzioni-FP 8) |
---|---|---|
Utilizzo della memoria GPU | ~ 88 GB | ~ 30 GB |
Stime | ~ 30-40 token/secondo | ~ 60-70 token/secondo |
Disegno di potenza | Alto | ~ 30-50% in meno |
Il numero di GPU richiede | 8 × A100 o giù di lì | 4 × A100 o meno |
Stime basate su criteri del settore per la distribuzione di FP8. I risultati effettivi variano in base alla dimensione del lotto, alla lunghezza rapida e al profilo stimato (ad es. Vllm, trasformatore, Sglung).
Niente più “ragionamento ibrido” … invece Qwen rilascerà diversi argomenti e istruzioni!
Forse il team di Quven ha annunciato che non avrebbe più perseguito un approccio logico “ibrido”, che ha presentato con Quven 3 ad aprile e ha ritenuto che questo sovrano fosse ispirato da un approccio conducendo dalla ricerca di seduture collettive AI.
Ciò ha permesso agli utenti di attivare un modello di “logica”, aiutando il modello AI a esaminare il proprio io e produrre “catene-off-thot”.
In un certo senso, è stato progettato per imitare gli argomenti di potenti modelli di proprietà come la serie “O” di Openi (O1, O3, O4-Mini, O4-High), che produce anche “catena-off-tre”.
Tuttavia, a differenza di quei modelli rivali, che sono sempre impegnati in tale “logica” per ogni segnale, facendo clic sul pulsante “Modalità di pensiero” sul chatbot del sito Web Qwen in Qwen 3, o facendo clic sul “/Think” prima del loro essere girato alla conclusione del modello locale o privato, l’utente può essere cambiato manualmente.
Lenta e più modalità di pensiero con i token per segni e funzioni più difficili è stata l’idea di dare il controllo degli utenti e utilizzare una modalità non di pensiero per semplici segni. Ma ancora una volta, ha messo l’utente sull’utente per decidere. Durante l’essere flessibile, in alcuni casi ha anche introdotto la complessità del design e il comportamento incoerente.
Ora come squadra Qwen Scritto nel suo post di annuncio su x,
“Dopo aver parlato con la comunità e aver pensato attraverso di essa, abbiamo deciso di impedire l’utilizzo della modalità di pensiero ibrido. Invece, addestreremo il modello separatamente e i modelli di pensiero in modo che possiamo ottenere la migliore qualità.”
Con 2507 aggiornamenti, un modello di istruzione o non rango per le redini, -Alibaba non sta più allungando entrambi gli approcci nello stesso modello. Invece, le varianti del modello separate verranno addestrate rispettivamente per le istruzioni e le funzioni logiche.
Il risultato è un modello che aderisce più da vicino alle istruzioni dell’utente, produce reazioni più previste e, come mostrano i dati di riferimento, migliora notevolmente diversi settori di valutazione.
Riferimento dimostrativo e casi d’uso
Rispetto al suo predecessore, il modello QWEN3-235B-A22B-Instruct-25507 migliora la media.
- Il punteggio MMU-Pro è aumentato da 75,2 a 83,0Un notevole vantaggio nelle prestazioni di conoscenza generale.
- I benchmark GPQA e SuperGPQA migliorano 15-20 punti percentualiSeguendo una forte precisione fattuale.
- Lavoro di argomento Come AIME25 e ARC -GI mostrano più del doppio delle prestazioni precedenti.
- La generazione del codice miglioraIl punteggio LiveCodebench aumenta da 32,9 a 51,8.
- Il supporto multilingue si espandeAiutato da una migliore copertura di lingue a coda lunga e un migliore allineamento nei dialetti.
Il modello mantiene un’architettura di miscela-specialista (MOE), che attiva 8 su 128 esperti, con un totale di 235 miliardi di parametri-22 miliardi in qualsiasi momento.
Come accennato in precedenza, la versione FP8 mostra una migliore velocità di stima e perminuazione dominata fine per un basso utilizzo della memoria.
Progettato da venture
A differenza di molti LLM Open-Sources, che sono spesso emessi in base a licenze restrittive di ricerca di ricerca o che richiedono l’accesso API per uso commerciale, Qwen3 viene eseguito esattamente con l’obiettivo di entrare in Enterprise.
Scopo Licenza Apache 2.0Ciò significa che le aziende possono utilizzarlo indipendentemente per applicazioni commerciali. Possono anche essere:
- Distribuire i modelli localmente o tramite API OpenAI-sangat utilizzando VLLM e SGLANG
- Personalmente perfezionare il modello usando Lura o Cula senza esporre i dati di proprietà
- Osserva tutti i segnali e output in modo ricco per la conformità e il controllo
- Dal prototipo a varianti dense di produzione (da 0,6b a 32b) o checkpoint MOE alla produzione
Anche il team di Alibaba Cowen-agentUna struttura più leggera che logica gli utenti le invocazioni degli strumenti astratti per la produzione del sistema agente.
I parametri di riferimento come Tau-Retail e BFCL-V3 suggeriscono che i modelli di istruzioni possono svolgere competenze con competenza a più fasi di decisione, di solito un dominio di agenti di fabbricazione oggettiva.
Reazioni della comunità e del settore
Il rilascio è già stato ben accolto dagli utenti di AI Power.
Copri PaulInsegnante di AI e fondatore di Private LLM Chatbot Host Shell blu AI, Pubblicato Un grafico comparativo su X, Cloud OPS 4 e KM K2 su benchmark come QWEN3-235B-A255507 GPQA, AIME25 e Arena-Hard V2 lo chiama sovraperformando Cloud Opas 4 e KM K2, che lo mostrano. “Più di 2 km di potente … e Cloud è migliore di Opus 4.”
Ricercato NIK (@NS123ABC)Commenta il suo effetto rapido: “Stai ridendo. Qwen-3-235b ha reso il KM K2 irrilevante dopo solo una settimana nonostante un quarto di dimensioni e stai ridendo.”
Durante questo periodo, Jeff BowdierTeste di prodotto sull’abbraccioEvidenzia i vantaggi della distribuzione: “Cuven ha tranquillamente rilasciato un enorme miglioramento per Qwen3 …
Ha elogiato la disponibilità di un checkpoint FP8 per una stima rapida, supportato segni 1-clici su Azure ML e supporto per l’uso locale tramite Mac o IN4 Build tramite MLX.
Il tono generale degli sviluppatori è stato entusiasta, poiché le prestazioni del modello, le licenze e la capacità di implementazione appello sia ai tugomi che ai professionisti.
Qual è il futuro per la squadra Qwen?
Alibaba sta già gettando le basi per aggiornamenti futuri. Un modello separato focalizzato sulla logica è in cantiere e la tabella di marcia Qwen indica un piano d’azione a livello di lungo termine per il sistema agente.
Si prevede inoltre che anche il supporto multimodale osservato nei modelli Qwen2.5 -Mni e QWEN -VL si espanderà ulteriormente.
E già, voci e frutti di frutti sono iniziati perché i membri del team Quven hanno preso in giro un altro aggiornamento all’arrivo della loro famiglia modello, Aggiornamento sulle loro qualità web Rivelando le stringhe di URL per un nuovo modello QWEN3-Coder-480B-A35B-Instruct, probabilmente un mix-off-esperti di 480 miliardi di parametri (MOE) con un riferimento token di 1 milione.
Ciò che QWEN3-235B-A22B-Instruct-25507 non è solo un altro salto nelle prestazioni di riferimento del segnale, ma la maturazione di modelli aperti come alternativa praticabile ai sistemi proprietari.
La flessibilità della distribuzione, delle forti prestazioni generali e delle licenze amichevoli da parte di Enterprise dà al modello un vantaggio unico in un’area affollata.
Le istruzioni avanzate non sono un modello dall’aspetto che integrano nel suo blocco di ricerca AI Stack-Sarcher o basato su commissioni basate su commissioni di utilizzo 3 è un contendente serio.
Collegamento alla fonte