Home Politica Qwen3-Max Thinking batte Gemini 3 Pro e GPT-5.2 nel test finale dell’umanità...

Politica

Qwen3-Max Thinking batte Gemini 3 Pro e GPT-5.2 nel test finale dell’umanità (tramite ricerca)

27 Gennaio 2026

Le aziende cinesi di intelligenza artificiale e tecnologia continuano a stupire con lo sviluppo di modelli linguistici di intelligenza artificiale all’avanguardia.

Oggi i riflettori sono puntati sul Qwen Team di Alibaba Cloud, composto da ricercatori sull’intelligenza artificiale, e sulla presentazione di un nuovo modello proprietario di ragionamento linguistico. Qwen3-Max-pensiero.

Come VentureBeat ha trattato l’anno scorso, forse ricorderete che Qwen si è fatto un nome nel mercato globale dell’intelligenza artificiale in rapida evoluzione offrendo una varietà di potenti modelli open source in una varietà di modalità, dal testo all’immagine all’audio parlato. La società ha persino ricevuto il sostegno del colosso statunitense degli alloggi tecnologici Airbnb, di cui è CEO e co-fondatore. Brian Chesky afferma che l’azienda si affida ai modelli gratuiti e open source di Qwen Come alternativa più conveniente alle offerte statunitensi come OpenAI.

Ora, con il Qwen3-Max-Thinking proprietario, il team Qwen mira a eguagliare, e in alcuni casi a superare, le capacità di ragionamento di GPT-5.2 e Gemini 3 Pro attraverso l’efficienza architetturale e l’autonomia operativa.

La dichiarazione arriva in un momento critico. I laboratori occidentali lo hanno ampiamente identificato. "ragionamento" categoria (solitamente doppiata) "Sistema 2" logica), ma le ultime revisioni di Qwen suggeriscono che il divario si sta riducendo.

Inoltre, l’azienda è relativamente conveniente Strategia di prezzo dell’API prende di mira in modo aggressivo l’adozione da parte delle imprese. Ma poiché si tratta di un modello cinese, alcune aziende statunitensi con severi requisiti e preoccupazioni in materia di sicurezza nazionale potrebbero essere riluttanti ad adottarlo.

Architettonico: "Prova la scalabilità temporale" Ridefinito

L’innovazione chiave alla base di Qwen3-Max-Thinking è l’abbandono dei metodi di inferenza standard. Mentre la maggior parte dei modelli genera token in modo lineare, Qwen3 è a "modalità pesante" È guidato da una tecnica nota come. "Testare la scalabilità temporale."

In termini semplici, questa tecnica consente al modello di scambiare intelligenza in cambio di calcolo. Ma a differenza dell’ingenuo "N è il migliore" campionamento (dove un modello può generare 100 risposte e scegliere la risposta migliore) Qwen3-Max-Thinking utilizza una strategia versatile e accumulata dall’esperienza.

Questo approccio imita la risoluzione dei problemi umani. Di fronte a una query complessa, il modello non si limita a fare previsioni; si impegna in un’autoriflessione iterativa. Utilizza un proprietario "fare esperienza" Un meccanismo per analizzare le informazioni ricavate dai passaggi precedenti del ragionamento. Ciò consente al modello di:

Identificare gli impasse: Capire quando un ragionamento fallisce senza bisogno di oltrepassarlo completamente.
Calcolo della messa a fuoco: Potenza di elaborazione diretta a: "incertezze irrisolte" piuttosto che derivare nuovamente risultati noti.

I guadagni di produttività sono tangibili. Il modello integra un contesto storico più ricco nella stessa finestra, evitando ragionamenti inutili. Il team Qwen riferisce che questo metodo porta a enormi aumenti delle prestazioni senza far esplodere i costi dei token:

GPQA (livello di dottorato in scienze): I punteggi sono aumentati da 90,3 a 90,3 92,8.
LiveCodeBench v6: Prestazioni in aumento da 88,0 91.4.

Oltre il puro pensiero: guida adattiva

Durante "pensiero" i modelli sono potenti, storicamente messi da parte; Sono bravi in matematica, ma scarsi nella navigazione sul web o nell’esecuzione di codice. Qwen3-Max-Thinking colma questa lacuna integrandosi efficacemente "modalità di pensiero e non pensiero".

Il modello ha capacità di strumenti adattivi; Ciò significa che selezionerà autonomamente lo strumento giusto per il lavoro senza bisogno della guida manuale da parte dell’utente. Può passare senza problemi tra:

Ricerca ed estrazione sul Web: Per domande fattuali in tempo reale.
Memoria: Per memorizzare e richiamare il contesto specifico dell’utente.
Interprete del codice: Scrittura ed esecuzione di snippet Python per attività computazionali.

Dentro "Modalità di pensiero," Il modello supporta questi strumenti simultaneamente. Questa funzionalità è fondamentale per le applicazioni aziendali in cui un modello potrebbe dover verificare un fatto (Ricerca), calcolare una proiezione (Interprete di codice) e quindi ragionare sull’inferenza strategica (Pensare) tutto in una volta.

Sperimentalmente, il team ha scoperto che questa combinazione "riduce efficacemente le allucinazioni," Perché il modello può basare la propria logica su dati esterni verificabili, anziché basarsi esclusivamente sui pesi di allenamento.

Analisi di benchmark: la storia dei dati

Qwen non esita a fare confronti diretti.

Su HMMT del 25 febbraio, Qwen3-Max-Thinking, un benchmark di ragionamento rigoroso, ha ottenuto un punteggio di 98,0, battendo Gemini 3 Pro (97,5) e guidando significativamente DeepSeek V3.2 (92,5).

Ma il segnale più importante per gli sviluppatori è probabilmente la ricerca dell’agente. Aprire "L’ultima prova dell’umanità" (HLE) — Benchmark che misura le prestazioni di 3.000 "Compatibile con Google" Domande a livello di laurea in matematica, scienze, informatica, discipline umanistiche e ingegneria — Dotato di strumenti di ricerca web, Qwen3-Max-Thinking ha ottenuto 49,8, battendo Gemini 3 Pro (45,8) e GPT-5.2-Thinking (45,5). .

Ciò dimostra che l’architettura di Qwen3-Max-Thinking è particolarmente adatta per flussi di lavoro complessi e mediati in più fasi in cui è richiesta l’acquisizione di dati esterni.

Il modello brilla anche nelle attività di codifica. Ha segnato 90,2 punti in Arena-Hard v2, lasciando i suoi concorrenti come Claude-Opus-4.5 (76,7) molto indietro.

Economia del ragionamento: distribuzione dei prezzi

Per la prima volta, possiamo dare uno sguardo chiaro agli aspetti economici del modello di ragionamento di livello superiore di Qwen. Viene posizionato Alibaba Cloud qwen3-max-2026-01-23 come offerta premium ma accessibile nella sua API.

Entrata: $ 1,20 per 1 milione di monete (<= 32k per contesti standard).
Uscita: $ 6,00 per 1 milione di monete.

Ecco come appare Qwen3-Max-Thinking a livello base:

Modello	Accedi (/1M)	Uscita (/1M)	Costo totale	Fonte
Qwen3Turbo	$ 0,05	$ 0,20	$ 0,25	AlibabaNuvola
Grok 4.1 Veloce (ragionamento)	$ 0,20	$ 0,50	$ 0,70	xAI
Grok 4.1 Veloce (non ragionante)	$ 0,20	$ 0,50	$ 0,70	xAI
chat di ricerca approfondita (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	Ricerca approfondita
ragionatore di ricerca approfondito (V3.2-Exp)	$ 0,28	$ 0,42	$ 0,70	Ricerca approfondita
Qwen3 Plus	$ 0,40	$ 1,20	$ 1,60	AlibabaNuvola
ERNI 5.0	$ 0,85	$ 3,40	$ 4,25	qianfan
Anteprima Flash di Gemini 3	$ 0,50	$ 3,00	$ 3,50	Google
ClaudeHaiku4.5	$ 1,00	$ 5,00	$ 6,00	antropico
Pensiero Qwen3-Max (23-01-2026)	$ 1,20	$ 6,00	$ 7,20	AlibabaNuvola
Gemini 3 Pro (≤200.000)	$ 2,00	$ 12,00	$ 14,00	Google
GPT-5.2	$ 1,75	$ 14,00	$ 15,75	OpenAI
Claude Sonetto 4.5	$ 3,00	$ 15,00	$ 18,00	antropico
Gemini 3 Pro (>200K)	$ 4,00	$ 18,00	$ 22,00	Google
Chiudi Esegui 4.5	$ 5,00	$ 25,00	$ 30,00	antropico
GPT-5.2 Professionale	$ 21,00	$ 168,00	$ 189,00	OpenAI

Questa struttura dei prezzi è aggressiva e offre prestazioni all’avanguardia vendendo più di molti vecchi modelli di punta.

Ma gli sviluppatori dovrebbero prestare attenzione ai prezzi dettagliati per le nuove funzionalità di intermediazione, poiché Qwen ne separa i costi. "pensiero" (gettoni) dal costo "fare" (uso degli strumenti).

Strategia di ricerca dell’agente: Entrambi sono standard search_strategy:agent e più avanzato search_strategy:agent_max ha un prezzo $ 10 ogni 1000 chiamate.
- Note: agent_max La strategia è attualmente contrassegnata come segue: "Offerta a tempo limitato," Suggerisce che il prezzo potrebbe aumentare in seguito.
Ricerca sul Web: Al prezzo di $ 10 per 1.000 chiamate tramite l’API Responses.

Livello gratuito promozionale:Per incoraggiare l’adozione delle sue funzionalità più avanzate, Alibaba Cloud offre attualmente due strumenti chiave gratuitamente per un periodo limitato:

Estrattore Web: Gratuito (Tempo limitato).
Interprete del codice: Gratuito (Tempo limitato).

Questo modello di prezzo (costo token basso + prezzo strumento à la carte) consente agli sviluppatori di creare agenti complessi economicamente vantaggiosi per l’elaborazione del testo, pagando un premio solo quando le azioni esterne vengono esplicitamente attivate, come una chiamata web dal vivo.

Ecosistema degli sviluppatori

Sapendo che le prestazioni sono inutili senza integrazione, Alibaba Cloud ha reso immediatamente disponibile Qwen3-Max-Thinking.

Compatibilità OpenAI: L’API supporta il formato OpenAI standard, consentendo ai team di passare da un modello all’altro semplicemente cambiando il modello. base_url E model nome.
Compatibilità antropica: In una mossa consapevole per conquistare il mercato della codifica, l’API supporta anche il protocollo Anthropic. Ciò rende Qwen3-Max-Thinking compatibile con: Codice ClaudioUn popolare ambiente di codifica delle agenzie.

Decisione

Qwen3-Max-Thinking rappresenta la maturazione del mercato dell’intelligenza artificiale nel 2026. Va oltre la conversazione "Chi ha il chatbot più intelligente?" con "Quello con l’agente più talentuoso."

Combinando il ragionamento ad alto rendimento con la gestione adattiva e autonoma del veicolo e valutandolo in movimento, Qwen si è saldamente affermato come uno dei principali contendenti per il trono dell’intelligenza artificiale aziendale.

Per sviluppatori e aziende, "Gratuito per un periodo limitato" Le finestre in Code Interpreter e Web Extractor indicano che è ora di provare. Le battaglie della logica non sono ancora finite, ma Qwen ha schierato un forte battitore.

Collegamento alla fonte

Qwen3-Max Thinking batte Gemini 3 Pro e GPT-5.2 nel test finale dell’umanità (tramite ricerca)

Architettonico: "Prova la scalabilità temporale" Ridefinito

Oltre il puro pensiero: guida adattiva

Analisi di benchmark: la storia dei dati

Economia del ragionamento: distribuzione dei prezzi

Ecosistema degli sviluppatori

Decisione

Ultimo post

I Panthers iniziano l’ultimo viaggio consecutivo a Pittsburgh

Cast di “Ferris Bueller’s Day Off”: guarda dove sono adesso le...

I dadi dell’era glaciale mostrano che i primi nativi americani probabilmente...

Sport del sabato: Final Four: Tiger Woods

La migliore pubblicità possibile!

Ho speso $ 2.000 per un regalo di compleanno per il...

Patrimonio netto di Dan Hurley: quanto guadagna l’allenatore di basket maschile...

Ci sono quattro cose di cui abbiamo bisogno per allestire un...

‘Qualcosa di più profondo’: giovani americani attratti dalla fede cattolica

Holloway brilla con due gol mentre i Blues battono i Ducks...

Un incendio in rapida crescita nel ventoso sud della California provoca...

VATICANO – 24-03-2024 – Un pellegrinaggio attraverso la Trinità pasquale da...

Categoria