Poche ore dopo che il colosso cinese della ricerca aveva annunciato che OpenAI aveva aggiornato il suo modello base di punta GPT-5 a GPT-5.1, promettendo una personalità più accogliente con un utilizzo complessivo di token ridotto e più opzioni preimpostate. Baidu ha introdotto il suo modello base di nuova generazione ERNIE 5.0. così come una serie di aggiornamenti dei prodotti AI ed espansioni internazionali strategiche.

L’obiettivo: posizionarsi come concorrente globale nel mercato sempre più competitivo dell’intelligenza artificiale aziendale.

Annunciato all’evento Baidu World 2025 dell’azienda, ERNIE 5.0 è un modello proprietario, nativamente multimodale, progettato per elaborare e visualizzare congiuntamente testo, immagini, contenuti audio e video.

A differenza del recente ERNIE-4.5-VL-28B-A3B-Thinking di Baidu, che è open source con la licenza Apache 2.0 permissiva e di facile utilizzo per le aziende, ERNIE 5.0 è un modello proprietario e solo ERNIE Bot di Baidu sito web (ho dovuto selezionarlo manualmente dal menu a discesa del selettore del modello) e Interfaccia di programmazione delle applicazioni (API) della piattaforma cloud Qianfan per clienti aziendali.

Oltre al lancio del modello, Baidu ha lanciato importanti aggiornamenti alla sua piattaforma umana digitale, strumenti senza codice e agenti IA generici; il tutto finalizzato ad espandere l’impronta dell’IA oltre la Cina.

L’azienda ha inoltre introdotto ERNIE 5.0 Preview 1022, una variante ottimizzata per attività ad uso intensivo di testo, nonché il modello di anteprima generale che fornisce equilibrio tra i metodi.

Baidu ha sottolineato che ERNIE 5.0 rappresenta un cambiamento nel modo in cui l’intelligenza viene distribuita su larga scala, con il CEO Robin Li che afferma: “Quando si interiorizza l’intelligenza artificiale, diventa una capacità nativa, trasformando l’intelligenza da un costo a una fonte di produttività”.

Dove ERNIE 5.0 supera GPT-5 e Gemini 2.5 Pro

I risultati dei benchmark di ERNIE 5.0 mostrano che Baidu ha raggiunto la parità (o quasi) con i migliori modelli di base occidentali in un’ampia gamma di compiti.

Nelle diapositive di benchmark pubbliche condivise durante l’evento Baidu World 2025, ERNIE 5.0 Preview ha sovraperformato o eguagliato GPT-5-High di OpenAI e Gemini 2.5 Pro di Google. ragionamento multimodale, comprensione dei documenti e garanzia della qualità basata sulle immaginiallo stesso tempo Dimostrare forti capacità di modellazione del linguaggio e di esecuzione del codice.

L’azienda ha sottolineato la propria capacità di affrontare input e output comuni attraverso le modalità piuttosto che fare affidamento sulla fusione di modalità post-hoc, che ha considerato un elemento di differenziazione tecnica.

ERNIE 5.0 ha ottenuto i migliori punteggi in OCRBench, DocVQA e ChartQA, tre benchmark che testano il riconoscimento dei documenti, la comprensione e il ragionamento sui dati strutturati nelle attività visive.

Baidu afferma che il modello supera sia GPT-5-High che Gemini 2.5 Pro in questi benchmark basati su documenti e grafica, che descrive come il fondamento di applicazioni aziendali come l’elaborazione automatizzata dei documenti e l’analisi finanziaria.

Nel rendering, ERNIE 5.0 ha pareggiato o superato Veo3 di Google in categorie tra cui l’allineamento semantico e la qualità dell’immagine, secondo il benchmarking interno basato su GenEval di Baidu. Baidu ha affermato che l’integrazione multimodale del modello gli consente di visualizzare e interpretare il contenuto visivo con maggiore consapevolezza contestuale rispetto ai modelli che si basano su codificatori specifici della modalità.

Per le attività audio e vocali, ERNIE 5.0 ha mostrato risultati competitivi sui benchmark di comprensione audio MM-AU e TUT2017, nonché sulla risposta alle domande dagli input della lingua parlata. Sebbene le prestazioni audio non siano enfatizzate tanto quanto quelle video o di testo, suggeriscono un’ampia gamma di funzionalità volte a supportare applicazioni multimodali a spettro completo.

Nei compiti linguistici, il modello ha mostrato ottimi risultati nel seguire le istruzioni, nel rispondere realisticamente alle domande e nel ragionamento matematico, aree chiave che definiscono l’utilità aziendale dei modelli linguistici di grandi dimensioni.

La variante Anteprima 1022 di ERNIE 5.0, progettata specificamente per le prestazioni di testo, ha mostrato risultati ancora più forti specifici per la lingua nei primi accessi da parte degli sviluppatori. Sebbene Baidu non affermi un’ampia superiorità nel giudizio linguistico complessivo, le sue valutazioni interne mostrano che ERNIE 5.0 Preview 1022 colma il divario con i modelli in lingua inglese di fascia alta e li supera nelle prestazioni in lingua cinese.

Anche se Baidu non ha rivelato pubblicamente i dettagli completi del benchmark o i punteggi grezzi, il suo posizionamento prestazionale suggerisce un tentativo deliberato di inquadrare ERNIE 5.0 non come un sistema multimodale di nicchia ma come un modello di punta in competizione con i più grandi modelli chiusi in un ragionamento generale.

Dove Baidu afferma chiaramente di eccellere è nella comprensione di documenti strutturati, nel ragionamento grafico visivo e nell’integrazione di più metodi in un’unica architettura di modellazione nativa.. Si attende una verifica indipendente di questi risultati, ma l’ampiezza delle capacità dichiarate posiziona ERNIE 5.0 come una seria alternativa nell’ambiente del modello base multimodale.

Strategia dei prezzi aziendali

ERNIE 5.0 è posizionato a: fine del premio Un esempio della struttura dei prezzi modello di Baidu. La società ha rilasciato prezzi speciali per l’utilizzo dell’API sulla piattaforma Qianfan, allineando il costo con altre offerte di fascia alta di rivali cinesi come Alibaba.

Modello

Costo di ingresso (per token 1K)

Costo di output (per token 1K)

Fonte

ERNI 5.0

$ 0,00085 (¥ 0,006)

0,0034 USD (0,024 ¥)

qianfan

ERNIE 4.5 Turbo (es.)

$ 0,00011 (¥ 0,0008)

0,00045 USD (0,0032 ¥)

qianfan

Qwen3 (il codificatore è obsoleto.)

$ 0,00085 (¥ 0,006)

0,0034 USD (0,024 ¥)

qianfan

La differenza di costo tra ERNIE 5.0 e modelli precedenti come ERNIE 4.5 Turbo sottolinea la strategia di Baidu di distinguere tra modelli ad alto volume e a basso costo e modelli ad alta capacità progettati per compiti complessi e ragionamento multimodale.

È di fascia media in termini di prezzo rispetto ad altre alternative statunitensi:

Modello

Accedi (/1 milione di token)

Output (/1 milione di token)

Fonte

GPT-5.1

$ 1,25

$ 10,00

OpenAI

ERNI 5.0

$ 0,85

$ 3,40

qianfan

ERNIE 4.5 Turbo (es.)

$ 0,11

$ 0,45

qianfan

Chiudi Esegui 4.1

$ 15,00

$ 75,00

antropico

Gemelli 2.5 Pro

$ 1,25 (≤200.000) / $ 2,50 (>200.000)

$ 10,00 (≤200.000) / $ 15,00 (>200.000)

Prezzi dell’intelligenza artificiale di Google Vertex

Grok 4 (grok-4-0709)

$ 3,00

$ 15,00

API xAI

Espansione globale: prodotti e piattaforme

Con il lancio del modello, Baidu si espande a livello internazionale:

  • GenFlow 3.0È il più grande agente AI per scopi generici dell’azienda, attualmente con oltre 20 milioni di utenti, e dispone di memoria avanzata e gestione delle attività multimodali.

  • Famosoun agente di auto-miglioramento in grado di risolvere dinamicamente problemi complessi, è ora disponibile in commercio su invito.

  • PauraLa versione internazionale del generatore senza codice Miaoda di Baidu è attiva in tutto il mondo medo.dev.

  • oreatUno spazio di lavoro per la produttività con supporto per documenti, diapositive, immagini, video e podcast, ha raggiunto più di 1,2 milioni di utenti in tutto il mondo.

Anche la piattaforma digitale di Baidu, attualmente disponibile in Brasile, fa parte dello sforzo globale. All’evento di shopping “Double 11” di quest’anno in Cina, l’83% degli emittenti live ha utilizzato la tecnologia umana digitale di Baidu, contribuendo ad un aumento del 91% del GMV, secondo i dati dell’azienda.

Nel frattempo, il servizio di ride-hailing autonomo Apollo Go di Baidu ha superato i 17 milioni di viaggi, gestendo flotte senza conducente in 22 città, e ha ottenuto il titolo di rete di robotaxi più grande al mondo.

Il modello di linguaggio-visione open source attira l’attenzione del settore

Due giorni prima dell’evento di punta ERNIE 5.0, Baidu ha anche rilasciato un modello multimodale open source con la licenza Apache 2.0: ERNIE-4.5-VL-28B-A3B-Thinking.

Come riportato dal mio collega Michael Nuñez di VentureBeat, il modello utilizza l’architettura Mix of Experts (MoE) per un’inferenza efficiente, consentendo solo 3 miliardi di parametri preservando un totale di 28 miliardi di parametri.

Le principali innovazioni tecniche includono:

  • “Thinking in Images”, che consente l’analisi visiva dinamica basata sullo zoom

  • Interpretazione grafica, comprensione del documento, giustificazione visiva e supporto della consapevolezza temporale in video

  • Il runtime su una singola GPU da 80 GB rende accessibili le organizzazioni di medie dimensioni

  • Piena compatibilità con i toolkit Transformers, vLLM e Baidu FastDeploy

Questa versione aumenta la pressione sui concorrenti closed source. Con la licenza Apache 2.0, ERNIE-4.5-VL-28B-A3B-Thinking diventa un modello base valido per applicazioni commerciali senza restrizioni di licenza; qualcosa che pochi modelli ad alte prestazioni offrono in questa classe.

Feedback della community e risposta di Baidu

Dopo il rilascio di ERNIE 5.0, lo sviluppatore e valutatore AI Lisan al Gaib (@scaling01) Ha pubblicato una recensione contrastante di X. Sebbene inizialmente fossero rimasti colpiti dalle prestazioni di riferimento del modello, hanno segnalato un problema persistente durante le attività di rendering SVG che faceva sì che ERNIE 5.0 richiamasse ripetutamente gli strumenti anche quando veniva esplicitamente detto di non farlo.

“I test di ERNIE 5.0 sembravano pazzeschi finché non l’ho testato… sfortunatamente o il cervello di RL è danneggiato o c’è qualcosa di seriamente sbagliato con il prompt della piattaforma/sistema di chat,” ha scritto Lisan.

L’account di supporto incentrato sugli sviluppatori di Baidu sarà disponibile tra poche ore. @ErnieforDevs ha risposto:

“Grazie per il tuo feedback! Questo è un bug noto; alcune sintassi possono attivarlo ripetutamente. Stiamo lavorando a una soluzione. Puoi provare a riformulare o modificare il messaggio per evitare questo problema per ora.”

La rapida inversione di tendenza riflette la crescente enfasi di Baidu sulle comunicazioni con gli sviluppatori, in particolare perché si rivolge agli utenti internazionali attraverso offerte sia proprietarie che open source.

Outlook per Baidu e la sua famiglia LLM principale ERNIE

ERNIE 5.0 di Baidu segna un aumento strategico nella corsa al modello di fondazione globale. Con un mix di prestazioni dichiarate, prezzi premium e alternative ad accesso aperto che lo mettono alla pari con OpenAI e i sistemi più avanzati di Google, Baidu segnala la sua ambizione di essere non solo un leader nazionale nell’intelligenza artificiale, ma anche un affidabile fornitore di infrastrutture globali.

In un momento in cui gli utenti aziendali dell’intelligenza artificiale richiedono sempre più prestazioni multimodali, licenze flessibili ed efficienza di implementazione, il duplice approccio di Baidu – API ospitate premium e versioni open source – potrebbe aumentare il suo fascino sia tra le aziende che tra le comunità di sviluppatori.

Non è ancora noto se le prestazioni dichiarate dall’azienda reggono ai test di terze parti. Ma in un ambiente caratterizzato da costi in aumento, complessità dei modelli e colli di bottiglia informatici, ERNIE 5.0 e l’ecosistema che lo supporta forniscono a Baidu una posizione competitiva nella prossima ondata di implementazioni dell’intelligenza artificiale.

Collegamento alla fonte