Anche ansia e scetticismo Grazie alla strategia di sviluppo e agli elevati impegni di spesa della startup statunitense OpenAI, i crescenti fornitori cinesi di intelligenza artificiale open source stanno intensificando la concorrenza e uno di essi ha persino raggiunto il modello proprietario a pagamento di punta di OpenAI, GPT-5, sui principali benchmark di prestazioni di terze parti con un nuovo modello gratuito.

Iniziativa cinese sull’intelligenza artificiale Il nuovo modello Kimi K2 Thinking di Moonshot AIRilasciato oggi, ha battuto sia i concorrenti proprietari che quelli ad alto rischio di exploit, conquistando il primo posto nei benchmark di ragionamento, codifica e strumenti intermediari.

Nonostante sia completamente open source, il modello ora supera GPT-5 di OpenAI, Claude Sonnet 4.5 di Anthropic (modalità Thinking) e Grok-4 di xAI in diversi benchmark standard; Questo è un punto di svolta per la competitività dei sistemi di IA aperti.

Gli sviluppatori possono accedere al modello all’indirizzo: platform.moonshot.ai E kim.com; pesi e codici sono ospitati su: Volto che abbraccia. La versione aperta include API per chat, ragionamento e flussi di lavoro multi-strumento.

Gli utenti possono provare direttamente Kimi K2 Thinking Concorrente del sito web simile a ChatGPT e così via C’è anche un’area che abbraccia il viso.

Licenza Open Source Standard modificata

Moonshot AI ha ufficialmente rilasciato Kimi K2 Thinking. Licenza MIT modificata Abbraccio sul tuo viso.

La licenza garantisce tutti i diritti commerciali e derivati; Cioè, i singoli ricercatori e sviluppatori che lavorano per conto di clienti aziendali possono accedere liberamente alla licenza e utilizzarla in applicazioni commerciali, ma aggiunge una restrizione:

"Se il software o qualsiasi prodotto derivato fornisce servizi Ha più di 100 milioni di utenti attivi mensili o genera più di 20 milioni di dollari di entrate mensili, Il distributore deve visualizzare in modo visibile “Kimi K2” nell’interfaccia utente del prodotto."

Per la maggior parte delle applicazioni istituzionali e di ricerca, questa clausola funge da requisito di attribuzione leggero preservando al tempo stesso le libertà delle licenze standard del MIT.

Ciò rende il K2 Thinking uno dei modelli di classe leader con licenza più indulgenti attualmente disponibili.

Un nuovo leader del confronto

Some K2 Thinking è un modello Mix of Experts (MoE) costruito attorno a trilioni di parametri, 32 miliardi dei quali vengono attivati ​​per inferenza.

Combina il ragionamento a lungo raggio con l’utilizzo strutturato degli strumenti per eseguire fino a 200-300 chiamate sequenziali agli strumenti senza intervento umano.

Secondo i risultati dei test pubblicati da Moonshot, K2 Thinking ha ottenuto quanto segue:

  • 44,9% Aprire L’ultimo esame dell’umanità (HLE)una partitura all’avanguardia;

  • 60,2% Aprire SfogliaCompun efficace test di ricerca e ragionamento sul web;

  • 71,3% Aprire Approvato SWE-Bench E 83,1% Aprire LiveCodeBench v6valutazioni della codifica chiave;

  • 56,3% Aprire Sigillo-0un punto di riferimento per il recupero delle informazioni nel mondo reale.

Il K2 Thinking supera costantemente i rispettivi punteggi del GPT-5 in questi compiti, battendo il precedente leader in termini di peso, il MiniMax-M2, rilasciato dal rivale cinese MiniMax AI solo poche settimane fa.

Il modello aperto supera i sistemi proprietari

GPT-5 e Claude Sonnet 4.5 Thinking rimangono i principali modelli di “pensiero” proprietari.

Ma nella stessa suite di benchmark, I punteggi del ragionamento operativo di K2 Thinking superano entrambi: ad esempio, in SfogliaComp il 60,2% del modello aperto batte nettamente il 54,9% di GPT-5 e il 24,1% di Claude 4.5.

K2 Thinking supera anche GPT-5 Diamante GPQA (85,7% vs 84,5%) e lo abbina a compiti di ragionamento matematico come OBIETTIVO 2025 E HMT2025.

Il modello proprietario riacquista la parità solo in alcune configurazioni in modalità pesante in cui GPT-5 combina più orbite.

Il fatto che la versione completamente open-weighted di Moonshot possa raggiungere o superare i punteggi di GPT-5 segna una pietra miliare. Il divario tra sistemi di confini chiusi e modelli pubblici è effettivamente crollato in termini di ragionamento e codifica di alto livello.

Superare il MiniMax-M2: precedente confronto Open Source

Quando VentureBeat ha profilato MiniMax-M2 solo una settimana e mezza fa, è stato acclamato come il “nuovo re dei LLM open source” e ha ottenuto il massimo dei voti tra i sistemi open-heavy:

  • Banco τ² 77,2

  • SfogliaComp 44.0

  • FinSearchComp-globale 65.5

  • Approvato SWE-Bench 69.4

Questi risultati avvicinano il MiniMax-M2 al livello GPT-5 in termini di manovrabilità efficace del veicolo. Ancora Alcuni pensieri K2 ora li eclissano con un ampio margine.

Il risultato di SfogliaComp del 60,2% supera il 44,0% di M2 e il 71,3% certificato SWE-Bench supera il 69,4% di M2. Anche su compiti di ragionamento finanziario come FinSearchComp-T3 (47,4%), K2 Thinking raggiunge prestazioni comparabili pur mantenendo un ragionamento generale superiore.

Tecnicamente, entrambi i modelli adottano architetture sparse Expert Mix per l’efficienza del calcolo, ma la rete di Moonshot impiega più esperti e implementa una formazione avanzata in grado di riconoscere la quantizzazione (INT4 QAT).

Questo design raddoppia la velocità di inferenza rispetto alla precisione standard senza ridurre la precisione; questo è fondamentale per lunghe sessioni di “think token” che raggiungono finestre di contesto di 256k.

Ragionamento dell’agenzia e utilizzo degli strumenti

La capacità distintiva di K2 Thinking risiede nella sua chiara traccia di ragionamento. Il modello restituisce Reasoning_content, un campo ausiliario che espone la logica intermedia prima di ogni risposta finale. Questa trasparenza mantiene la coerenza tra attività lunghe e multi-round e chiamate di team in più fasi.

Un’implementazione di riferimento pubblicata da Moonshot mostra come il modello esegue autonomamente un flusso di lavoro di “notizia quotidiana”: richiamando la cronologia e gli strumenti di ricerca web, analizzando il contenuto recuperato e generando output strutturato, il tutto mantenendo il suo stato di ragionamento interno.

Questa autonomia end-to-end consente al modello di pianificare, cercare, eseguire e sintetizzare le prove in centinaia di passaggi, riflettendo una classe emergente di sistemi di “intelligenza artificiale” che operano con una supervisione minima.

Efficienza e accesso

Nonostante la sua scala di trilioni di parametri, il costo di runtime di K2 Thinking rimane modesto. L’utilizzo di Moonshot è elencato in:

  • $ 0,15/1 milione di monete (hit nella cache)

  • $ 0,60/1 milione di monete (cache persa)

  • Emissione di token da $ 2,50/1 milione

Queste tariffe sono addirittura competitive rispetto ai prezzi di ingresso di 0,30 dollari/uscita di 1,20 dollari del MiniMax-M2 e ben al di sotto di quelli del GPT-5 (ingresso di 1,25 dollari/uscita di 10 dollari).

Contesto comparativo: accelerazione a peso aperto

La rapida successione di M2 e K2 Thinking mostra quanto velocemente la ricerca open source stia recuperando terreno rispetto ai sistemi di confine. MiniMax-M2 ha dimostrato che i modelli aperti possono avvicinarsi alla capacità dell’agente di classe GPT-5 a una frazione del costo di elaborazione. Moonshot ora spinge ulteriormente quel confine, spingendo i pesi massimi aperti oltre la parità e direttamente in testa.

Entrambi i modelli si basano su un’attivazione sparsa per l’efficienza, ma il conteggio di attivazione più elevato di K2 Thinking (32 B contro 10 B parametri attivi) fornisce una maggiore precisione di ragionamento tra i domini. Il ridimensionamento del tempo di prova (espansione dei “think token” e delle curve di ride-hailing) fornisce miglioramenti misurabili delle prestazioni senza richiedere riqualificazione, una caratteristica non ancora osservata nel MiniMax-M2.

Prospettive tecniche

Moonshot segnala il supporto di K2 Thinking inferenza INT4 nativa E Contesto token da 256 k Con una perdita di prestazioni minima. La sua architettura integra quantizzazione, aggregazione di orbite parallele (“modalità pesante”) e routing Experts Mix ottimizzato per attività di ragionamento.

In pratica, queste ottimizzazioni consentono a K2 Thinking di mantenere cicli di pianificazione complessi come compilazione-test-correzione, ricerca-analisi-riepilogo del codice su centinaia di chiamate a strumenti. Questa capacità è alla base dei suoi eccezionali risultati in SfogliaComp e SWE-Bench, dove la continuità di giudizio è decisiva.

Enormi impatti sull’ecosistema dell’intelligenza artificiale

La convergenza di modelli espliciti e impliciti nella fascia alta indica un cambiamento strutturale nel panorama dell’IA. Le organizzazioni che una volta si affidavano esclusivamente ad API private possono ora implementare alternative aperte che corrispondono alla logica di livello GPT-5, ottenendo al contempo il pieno controllo su pesi, dati e compatibilità.

La strategia di trasmissione aperta di Moonshot segue il precedente stabilito da DeepSeek R1, Qwen3, GLM-4.6 e MiniMax-M2 ma lo estende al ragionamento completo degli agenti.

K2 Thinking fornisce trasparenza e interoperabilità per gli sviluppatori accademici e aziendali; ovvero, la capacità di esaminare tracce di ragionamento e ottimizzare le prestazioni per agenti specifici del dominio.

L’arrivo di K2 Thinking è a Giovane startup fondata nel 2023 È qui per giocare in una competizione che si è intensificata con gli investimenti di alcune delle più grandi aziende cinesi di app e tecnologia, e arriva in un momento in cui la sostenibilità finanziaria dei maggiori attori dell’IA è sotto crescente controllo.

Solo un giorno fa, Sarah Friar, CFO di OpenAI, ha suscitato polemiche dopo aver dichiarato: Proporre al WSJ Tech Live Una situazione in cui il governo degli Stati Uniti potrebbe eventualmente dover fornire un “backstop” sugli impegni dell’azienda per oltre 1,4 trilioni di dollari in ambito informatico e data center; Questo commento è ampiamente interpretato come una richiesta di garanzie sui prestiti garantite dai contribuenti.

Nonostante Friar ha successivamente annunciato che OpenAI Sebbene non abbia cercato il sostegno federale diretto, l’incidente ha riacceso il dibattito sull’entità e sulla concentrazione della spesa in conto capitale per l’IA.

Mentre OpenAI, Microsoft, Meta e Google corrono per assicurarsi forniture di chip a lungo termine, i critici mettono in guardia da una bolla di investimenti insostenibile e da una “corsa agli armamenti dell’intelligenza artificiale” guidata dalla paura strategica piuttosto che dai rendimenti commerciali. "esplodere" e se c’è esitazione o incertezza nel mercato, trascina con sé l’intera economia globale, poiché molte operazioni e valutazioni vengono ora effettuate in previsione di continui investimenti elevati nell’intelligenza artificiale e di rendimenti massicci.

In questo contesto, le versioni ad alto rischio di vulnerabilità di Moonshot AI e MiniMax esercitano maggiore pressione sulle aziende private di intelligenza artificiale negli Stati Uniti e sui loro sostenitori affinché giustifichino l’entità degli investimenti e i percorsi verso la redditività.

Se un cliente aziendale può ottenere prestazioni comparabili o migliori da un modello di intelligenza artificiale cinese open source gratuito con la stessa facilità con cui può ottenere soluzioni di intelligenza artificiale proprietarie a pagamento come GPT-5 di OpenAI, Claude Sonnet 4.5 di Anthropic o Gemini 2.5 Pro di Google, perché dovrebbero continuare a pagare per accedere a modelli proprietari? Già le potenze della Silicon Valley come Airbnb hanno alzato le sopracciglia per la loro ammissione pesante. Utilizzo di alternative open source cinesi come Qwen di Alibaba invece delle offerte proprietarie di OpenAI.

Per gli investitori e le imprese, questi sviluppi dimostrano che i talenti dell’intelligenza artificiale di alto livello non sono più sinonimo di spese in conto capitale di alto livello. I sistemi di ragionamento più avanzati potrebbero non provenire più da aziende che costruiscono data center su larga scala, ma da gruppi di ricerca che ottimizzano architetture e quantizzazione per l’efficienza.

In questo senso, il dominio benchmark di K2 Thinking non è solo una pietra miliare tecnica, ma anche strategica che arriva in un momento in cui la più grande sfida del mercato AI sta cambiando. Quanto possono essere potenti i modelli? con chi può tenerli su.

Cosa significa per le aziende che vanno avanti?

Poche settimane dopo l’ascesa del MiniMax-M2, Kimi K2 Thinking, insieme a GPT-5 e Claude 4.5, lo hanno superato in quasi tutti i criteri di giudizio e di azione.

Il modello si basa su sistemi dominati dal deficit. non soddisfa o supera più i modelli limite proprietari Sia in termini di talento che di efficienza.

Per la comunità di ricerca sull’intelligenza artificiale, K2 Thinking rappresenta più di un semplice modello chiaro: è la prova che l’edge sta diventando collaborativo.

Il modello di ragionamento più performante oggi disponibile non è un prodotto commerciale chiuso ma un sistema open source accessibile al pubblico.

Collegamento alla fonte