Un altro giorno alla fine del 2025, un altro risultato impressionante di un’azienda cinese nel campo dell’intelligenza artificiale open source.

Società cinese di social networking La divisione AI di Weibo ha recentemente rilasciato VibeThinker-1.5B open source—Il modello LLM (Large Language Model) da 1,5 miliardi di parametri, una variante ottimizzata di un’azienda tecnologica cinese rivale Qwen2.5-Math-1.5B di Alibaba.

Ora può essere scaricato gratuitamente e utilizzato da ricercatori e sviluppatori aziendali, anche per scopi commerciali, sotto una licenza MIT permissiva. Volto che abbraccia, GitHub E Ambito del modelloUno relazione tecnica sul sito di pubblicazione scientifica ad accesso aperto arxiv.org.

Eppure, nonostante le sue dimensioni compatte, VibeThinker-1.5B raggiunge le massime prestazioni di ragionamento nei benchmark su compiti di matematica e programmazione, rivaleggiando o superando modelli centinaia di volte le sue dimensioni, superando persino il famoso R1 del rivale cinese DeepSeek (un modello con 671 miliardi di parametri) diventato virale all’inizio di quest’anno.

Inoltre supera Magistral Medium di Mistral AI e mantiene il suo vantaggio su Claude Opus 4 di Anthropic e gpt-oss-20B Medium di OpenAI, il tutto richiedendo pochissime infrastrutture e investimenti.

Lo fa anche post-formazione con un budget di soli $ 7800 per le risorse di elaborazione (3900 clock GPU su Nvidia H800); Questo è molto inferiore alle decine o addirittura centinaia di migliaia di dollari normalmente necessari per mettere a punto modelli simili o su scala più grande.

Ma ricorda che questo non è il costo totale dello sviluppo del modello: i Master vengono formati in più fasi. Il primo è il pre-addestramento, in cui il modello apprende la struttura linguistica di base e le conoscenze generali prevedendo la parola successiva da enormi quantità di testo da Internet, libri e articoli. Questo gli dà fluidità ma non gli dà molte informazioni su come seguire le istruzioni o portare avanti una conversazione.

Poi viene il post-addestramento, che utilizza set di dati molto più piccoli e di qualità superiore (solitamente raccolte di domande campione, suggerimenti e risposte scritte da esperti) per insegnare al modello come rispondere in modo utile, ragionare sui problemi e adattarsi alle aspettative umane. Tuttavia, il rapporto costo-efficacia del post-allenamento Weibo su VibeThinker-1.5B è notevole e dovrebbe essere apprezzato.

La versione open source ribalta le ipotesi su scala dei parametri, densità di calcolo e dimensione minima applicabili ai LLM ad alte prestazioni.

Un approccio educativo diverso: dallo spettro al segnale

VibeThinker-1.5B deve le sue prestazioni non alla scalabilità, ma al quadro di formazione dietro di esso: Spectrum-to-Signal Principle (SSP).

Piuttosto che ottimizzare un modello interamente per l’accuratezza della risposta singola (Pass@1), il framework SSP separa il fine tuning supervisionato (SFT) e l’apprendimento per rinforzo (RL) in due fasi separate con obiettivi diversi:

  • PFT (“Fase dello spettro”): Il modello è addestrato per massimizzare la diversità nelle potenziali risposte corrette e aumentare il punteggio Pass@K. Ciò crea un’ampia gamma di soluzioni plausibili.

  • RL (“Fase del segnale”): Il sistema di apprendimento di rinforzo della seconda fase (chiamato MaxEnt Guided Policy Optimization o MGPO) viene utilizzato per identificare e rafforzare i percorsi più corretti da questo insieme diversificato di soluzioni. MGPO dà priorità ai problemi in cui il modello è più incerto, utilizzando la ponderazione basata sull’entropia per focalizzare l’apprendimento.

Gli autori suggeriscono che questa separazione consente ai modelli piccoli di esplorare lo spazio di ragionamento in modo più efficace, ottenendo l’amplificazione del segnale senza fare affidamento su numeri di parametri molto grandi.

VibeThinker-1.5B dimostra in modo convincente che la dipendenza del settore dal ridimensionamento dei parametri come unico percorso per migliorare le prestazioni di ragionamento potrebbe essere obsoleta.

Adottando una pipeline di formazione incentrata sulla diversità, WeiboAI ha dimostrato che modelli più piccoli e più accessibili possono eguagliare e persino superare sistemi da miliardi di dollari in compiti ad alto contenuto logico.

Il basso ingombro delle risorse è uno degli aspetti più importanti di VibeThinker-1.5B. Il suo costo post-addestramento inferiore a 8.000 dollari è 30-60 volte inferiore rispetto a modelli come DeepSeek R1 e MiniMax-M1, che costano tra 294.000 e 535.000 dollari per l’addestramento.

Prestazioni interdominio

Nonostante le sue dimensioni ridotte, VibeThinker-1.5B offre un ragionamento interdominio che supera molti dei principali modelli open source e commerciali:

Modello

AIME25

LiveCodeBench v6

GPQA-Diamante

VibeThinker-1.5B

74.4

51.1

46.7

GPT-OSS-20B-Medio

72.1

54.9

66.0

Chiudi lo studio 4

69.2

56.6

79,6

MiniMaks M1 (456B)

74.6

62.3

69.2

DeepSeek R1 (671B)

70,0

65.9

71,5

Kimi K2 (1.09T)

49,5

53.7

75.1

VibeThinker è stato confrontato sia con i modelli incentrati sul ragionamento (Magistral, Claude, OpenAI o3-mini) che con i LLM non ragionanti (GPT-4.1, Kimi K2, DeepSeek V3). Attraverso i benchmark del ragionamento strutturato, il modello ha costantemente sovraperformato i modelli senza ragionamento indipendentemente dalle dimensioni:

  • All’AIME24 (matematica), Kimi ha battuto il K2 (1.09T) di oltre 10 punti (80,3 contro 69,6).

  • Claude ha sovraperformato l’Opus 4 in LiveCodeBench v6 (51,1 contro 47,4).

  • Ha ottenuto un punteggio inferiore a GPT-4.1 e Claude su GPQA, ma ha comunque raddoppiato il suo modello base (da 16,4 a 46,7).

Ciò supporta l’affermazione degli autori secondo cui le dimensioni non sono l’unico percorso verso la capacità di ragionamento; Con un’adeguata progettazione della formazione, i modelli più piccoli possono raggiungere o addirittura superare le prestazioni di sistemi molto più grandi su compiti mirati.

In particolare, mentre raggiunge la parità con modelli centinaia di volte più grandi in matematica e codice, è in ritardo nel ragionamento di conoscenza generale (GPQA), dove i modelli più grandi eccellono.

Ciò suggerisce un potenziale compromesso in termini di competenze: sebbene VibeThinker eccelle nei compiti logici strutturati, è meno capace di un ampio richiamo enciclopedico, una limitazione nota delle architetture più piccole.

Guida all’adozione aziendale

La versione include le impostazioni di inferenza consigliate (temperatura = 0,6, top_p = 0,95, token massimi = 40960).

Il modello è sufficientemente piccolo da poter essere implementato in dispositivi edge, inclusi telefoni cellulari e sistemi integrati nei veicoli, e si stima che i costi di inferenza siano da 20 a 70 volte più economici rispetto ai modelli più grandi.

Ciò posiziona VibeThinker-1.5B non solo come un successo di ricerca, ma anche come una potenziale base per sistemi di ragionamento economicamente vantaggiosi e implementabili a livello locale.

Strategia e posizione di mercato di Weibo

Lanciato da Sina Corporation nel 2009, Weibo rimane la pietra angolare dell’ecosistema dei social media cinese. Spesso descritta come la versione cinese di X (ex Twitter), la piattaforma unisce microblogging, contenuti multimediali e argomenti di tendenza con un contesto normativo modellato da una stretta supervisione da parte del governo.

Nonostante contino 600 milioni di utenti attivi mensili (più del doppio della X), Gli investitori non sono ottimisti riguardo al potenziale di crescita dei ricavi pubblicitari Nel breve termine, Weibo sta intensificando la concorrenza di piattaforme video-first come Douyin, che attirano utenti più giovani e aumentano il tempo trascorso altrove.

In risposta, Weibo si è concentrato sulla monetizzazione dell’economia dei creatori, dello streaming live e dei video verticali; Ha aggiunto strumenti per il coinvolgimento degli influencer, l’integrazione dell’e-commerce e analisi più ricche per i marchi.

Il ruolo della piattaforma come spazio pubblico digitale la rende anche al centro del controllo normativo. Le autorità cinesi continuano a reprimere questioni che vanno dalla moderazione dei contenuti alla sicurezza dei dati. Nel settembre 2025, Weibo era tra le piattaforme menzionate negli avvertimenti ufficialiSottolinea che continua ad essere esposto ai rischi politici.

La spinta di Weibo nella ricerca e sviluppo sull’intelligenza artificiale, esemplificata dal lancio di VibeThinker-1.5B, segnala un cambiamento di ambizione. Più che una semplice piattaforma multimediale, Weibo si sta posizionando come attore nella prossima fase di sviluppo dell’intelligenza artificiale cinese utilizzando le sue riserve di capitale, i dati sul comportamento degli utenti e la capacità di ricerca interna per perseguire campi tecnici adiacenti.

Cosa significa per i decisori tecnici aziendali?

Per i leader tecnici e i team di intelligenza artificiale aziendali, la versione di VibeThinker ha implicazioni pratiche su tutto, dalle pipeline di orchestrazione alla modellazione dei costi.

Un modello con parametri 1.5D che surclassa modelli 100 volte più grandi nelle attività matematiche e di programmazione non solo consente di risparmiare calcoli, ma modifica anche l’equilibrio dell’architettura. Consente l’inferenza LLM su infrastrutture vincolate, riduce la latenza all’edge e abbassa la barriera all’ingresso per le applicazioni che altrimenti richiederebbero l’accesso API a modelli chiusi su scala edge.

Ciò è importante per i leader del machine learning aziendale che cercano di implementare agenti capaci di ragionare nei sistemi esistenti o per i proprietari di piattaforme incaricati di integrare LLM in flussi di lavoro automatizzati.

Si rivolge anche a coloro che eseguono l’apprendimento per rinforzo da pipeline di feedback umano (RLHF) o gestiscono l’ottimizzazione dell’inferenza in ambienti cloud ibridi.

La metodologia post-formazione del modello (in particolare l’approccio di apprendimento per rinforzo mirato all’entropia) offre una tabella di marcia per i team che desiderano perfezionare checkpoint più piccoli anziché fare affidamento su una pre-formazione su larga scala.

Le fasi di trasparenza di riferimento e sanificazione dei dati di VibeThinker affrontano anche un’altra priorità emergente nell’intelligenza artificiale aziendale: la verificabilità. Sebbene le sue prestazioni nei test di conoscenza generale siano ancora in ritardo rispetto ai modelli di frontiera, la sua affidabilità specifica per attività lo rende un candidato interessante per ambienti controllati in cui la precisione è più importante della copertura.

In breve, VibeThinker-1.5B non è solo una pietra miliare della ricerca; È un forte candidato per l’uso pratico, l’implementazione e l’apprendimento aziendale. Suggerisce che una nuova classe di modelli compatti e ottimizzati per il ragionamento è adatta a casi d’uso aziendali che in precedenza erano dominio di sistemi molto più grandi. Per le organizzazioni che cercano di bilanciare costi, latenza, interpretabilità e controllo, questa è una buona nuova opzione nel lungo e crescente elenco di offerte open source cinesi.

Collegamento alla fonte