Ciao cari lettori. Buon Ringraziamento in ritardo e Black Friday!
Quest’anno sembrava di vivere in un DevDay permanente. Ogni settimana alcuni laboratori rilasciano un nuovo modello, un nuovo framework di agenti o una nuova demo “questo cambia tutto”. Molto impressionante. Ma è anche il primo anno in cui sento che l’intelligenza artificiale si sta finalmente diversificando; non solo uno o due modelli di frontiera nel cloud, ma un intero ecosistema: aperto e chiuso, gigante e piccolo, occidentale e cinese, cloud e nativo.
Per questa edizione del Ringraziamento, ecco ciò di cui sono veramente grato per quanto riguarda l’intelligenza artificiale nel 2025: versioni che sembrano saranno importanti tra 12-24 mesi, non solo durante il ciclo pubblicitario di questa settimana.
1. OpenAI ha continuato a essere distribuito con successo: GPT-5, GPT-5.1, Atlas, Sora 2 e pesi aperti
Come l’azienda che innegabilmente dà i natali "intelligenza artificiale produttiva" Con il suo prodotto di successo virale ChatGPT alla fine del 2022, OpenAI ha probabilmente affrontato una delle sfide più difficili di qualsiasi azienda di intelligenza artificiale nel 2025: mantenere la sua traiettoria di crescita anche se rivali ben finanziati come Google con i suoi modelli Gemini e altre startup come Anthropic stanno mettendo in campo le proprie offerte altamente competitive.
Fortunatamente, OpenAI ha raccolto la sfida e anche di più. La sua azione principale è stata GPT-5, annunciato ad agosto come il prossimo modello di ragionamento di frontiera, seguito a novembre da GPT-5.1 con le nuove varianti Instant e Think che regolano dinamicamente la quantità di “tempo di riflessione” impiegato per attività.
In pratica, il lancio di GPT-5 è stato accidentato: VentureBeat nota i primi errori di matematica e di codifica e “il lancio di GPT-5 di OpenAI non sta procedendo bene," ma il problema è stato risolto rapidamente in base al feedback degli utenti e, come utente quotidiano di questo modello, ne sono rimasto personalmente soddisfatto e impressionato.
Allo stesso tempo, le aziende che utilizzano effettivamente i modelli riportano guadagni significativi. ZenDesk globaleAd esempio, afferma che gli agenti basati su GPT-5 ora risolvono più della metà dei ticket dei clienti e alcuni clienti riscontrano un tasso di risoluzione dell’80-90%. La storia tranquilla è che questi modelli potrebbero non sempre impressionare le classi chiacchierone in X, ma stanno iniziando a determinare KPI reali.
Dal punto di vista degli strumenti, OpenAI ha finalmente fornito agli sviluppatori un serio ingegnere AI con GPT-5.1-Codex-Max, un nuovo modello di codifica in grado di eseguire flussi di lavoro lunghi e gestiti ed è già predefinito nell’ambiente Codex di OpenAI. “OpenAI ha rilasciato per la prima volta il modello di codifica GPT-5.1-Codex-Max e ha già completato internamente una missione di 24 ore”, ha riferito VentureBeat. Ha discusso questo problema in dettaglio in questa sezione.
C’è anche ChatGPT Atlas, un browser completo con ChatGPT integrato in Chrome, con riepiloghi nella barra laterale, analisi in-page e funzionalità di ricerca strettamente integrate nella normale navigazione. Questo è il segnale più chiaro che “assistente” e “browser” sono in rotta di collisione.
Dal punto di vista multimediale, Sora 2 ha trasformato la demo video originale di Sora in un modello video e audio completo con fisica migliore, audio e dialoghi sincronizzati, maggiore controllo sullo stile e sulla struttura delle riprese, nonché un’app Sora dedicata con una vera e propria componente di social networking; Crea la tua rete TV in tasca.
Infine, e forse in modo più simbolico, OpenAI ha rilasciato gpt-oss-120B e gpt-oss-20B, modelli di ragionamento MoE open-heavy con una licenza in stile Apache 2.0. Qualunque cosa si pensi della loro qualità (e i primi utenti open source si sono espressi apertamente nelle loro lamentele), per la prima volta da GPT-2, OpenAI sta ponendo una seria enfasi sui beni comuni pubblici.
2. L’ondata open source cinese diventa mainstream
Se il 2023-24 riguarda Llama e Mistral, il 2025 appartiene all’ecosistema cinese ad alto deficit.
Uno studio del MIT e di Hugging Face ha rilevato che: La Cina ora guida di poco gli Stati Uniti nei download globali di modelli apertigrazie in gran parte a DeepSeek e alla famiglia Qwen di Alibaba.
In primo piano:
-
DeepSeek-R1 È stato lanciato a gennaio come modello di ragionamento open source che rivaleggia con o1 di OpenAI, con pesi con licenza MIT e una famiglia di modelli più piccoli distillati. VentureBeat ha seguito la storia dal lancio all’impatto sulla sicurezza informatica fino alle varianti R1 ottimizzate per le prestazioni.
-
Alcuni pensieri sul K2 Un modello open source “pensante” di Moonshot che ragiona passo dopo passo con gli strumenti, rientra principalmente nello stampo o1/R1 e finora è posizionato come il miglior modello di ragionamento aperto al mondo.
-
Zai Ha pubblicato GLM-4.5 e GLM-4.5-Air su GitHub come modelli “mediati”, base open source e varianti di ragionamento ibrido.
-
Quello di Baidu ERNI 4.5 rientrava in Apache 2.0 come pacchetto MoE multimodale completamente open source che includeva un modello denso 0.3D e varianti visive “Thinking” incentrate su grafica, STEM e strumenti.
-
Quello di Alibaba Qwen3 La gamma, che include Qwen3-Coder, i principali modelli di ragionamento e la serie Qwen3-VL, rilasciata nell’estate e nell’autunno del 2025, continua a stabilire un livello elevato per i pesi massimi espliciti nella codifica, nella traduzione e nel ragionamento multimodale, il che mi ha portato a dichiarare l’estate scorsa che: "
Il post di Qwen."
VentureBeat tiene traccia di questi cambiamenti, compresi i modelli matematici e di ragionamento cinesi come Light-R1-32B e il piccolo VibeThinker-1.5B, che supera le basi di DeepSeek con i budget ristretti per la formazione di Weibo.
Se ti interessano gli ecosistemi aperti o le opzioni on-premise, quest’anno la scena cinese open-heavy è passata dalla curiosità all’alternativa seria.
3. Crescono i modelli piccoli e locali
C’è qualcos’altro di cui sono grato: finalmente siamo riuniti Bene piccoli modelli, non solo giocattoli.
Liquid AI ha trascorso il 2025 sviluppando le sue varianti del linguaggio di visione Liquid Foundation Models (LFM2) e LFM2-VL, progettate fin dal primo giorno non solo per cluster giganti ma per implementazioni a bassa latenza e consapevoli dei dispositivi come edge box, robot e server vincolati. più recente LFM2-VL-3B Si rivolge alla robotica integrata e all’autonomia industriale, con dimostrazioni previste al ROSCon.
Dal punto di vista tecnologico, la serie Gemma 3 di Google ha dimostrato con forza che “tiny” può ancora essere capace. Gemma 3 si estende dai parametri 270M a 27B; tutti hanno pesi aperti e supporto multimodale sulle varianti più grandi.
Lo straordinario è il Gemma 3 270M, un modello compatto progettato specificamente per attività di messa a punto e testo strutturato (si pensi a formattatori, router e osservatori personalizzati), sia sul blog degli sviluppatori di Google che nelle discussioni della comunità nei circoli LLM locali.
Questi modelli potrebbero non essere mai di tendenza
4. Tra Meta + Viaggio: L’estetica come servizio
Uno degli strani sviluppi di quest’anno: invece di provare a battere Midjourney, Meta ha collaborato con esso.
Ad agosto, Meta ha annunciato un accordo per concedere in licenza la “tecnologia estetica” di Midjourney (il suo stack di rendering di immagini e video) e integrarla nei futuri modelli e prodotti di Meta, dai feed di Facebook e Instagram alle funzionalità Meta AI.
VentureBeat ha trattato la partnership nell’articolo “Meta sta collaborando con Midjourney e concederà in licenza la sua tecnologia per modelli e prodotti futuri”, sollevando l’ovvia domanda: questo rallenta o rimodella la roadmap API di Midjourney? Stiamo ancora aspettando una risposta, ma sfortunatamente i piani dichiarati per il rilascio dell’API non si sono ancora concretizzati, il che suggerisce che ciò stia accadendo.
Ma per creatori e marchi, l’impatto immediato è semplice: le immagini di metà viaggio iniziano ad apparire negli strumenti social tradizionali invece di rimanere bloccate nel bot Discord. Ciò potrebbe normalizzare l’arte basata sull’intelligenza artificiale di alta qualità per un pubblico molto più ampio e costringere concorrenti come OpenAI, Google e Black Forest Labs ad alzare il livello.
5. Gemini 3 e Nano Banana Pro di Google
Google ha provato a rispondere a GPT-5 con Gemini 3, presentato come il modello più capace finora, con ragionamento, codifica e comprensione multimodale migliori, nonché una nuova modalità Deep Thinking per problemi lenti e difficili.
L’articolo di VentureBeat intitolato “Google svela Gemini 3, rivendicando la leadership in matematica, scienze, intelligenza artificiale multimodale e agenzia” lo ha inquadrato come uno sguardo diretto alle valutazioni dei confini e ai flussi di lavoro mediati.
Ma il successo a sorpresa è il nuovo renderer di immagini di punta di Google, Nano Banana Pro (Gemini 3 Pro Image). È specializzato in infografiche, diagrammi, scene multitema e testo multilingue reso leggibile con risoluzioni 2K e 4K.
Questo è un grosso problema nel mondo dell’intelligenza artificiale aziendale, dove grafici, diagrammi di prodotto e immagini che “spiegano visivamente questo sistema” sono più importanti dei draghi fantasy.
6. Caratteri jolly a cui sto prestando attenzione
Ecco alcune altre pubblicazioni di cui sono grato, anche se non rientrano perfettamente in un unico riquadro:
-
Flusso dei Laboratori della Foresta Nera.2 modelli di display rilasciati all’inizio di questa settimana con l’obiettivo di sfidare sia Nano Banana Pro che Midjourney in termini di qualità e controllo. VentureBeat è entrato nei dettagli nell’articolo “Black Forest Labs lancia i modelli di display AI Flux.2 per sfidare Nano Banana Pro e Midjourney”."
-
Claude Opus 4.5 di Antropik“Claude Opus 4.5 è qui, una nuova ammiraglia che mira a una codifica più economica e più capace e all’esecuzione di attività a lungo termine, discusso in Claude Opus 4.5 di Anthropic: IA più economica, chat infinite e capacità di codifica superiori all’uomo."
-
Un ritmo costante di modelli matematici e di ragionamento aperti, da Light-R1 a VibeThinker e altri, dimostra che non sono necessari 100 milioni di dollari in studi educativi per spostare l’ago della bilancia.
Considerazione finale (per ora)
Se il 2024 è stato l’anno del “grande modello nel cloud”, il 2025 è l’anno dell’esplosione della mappa: molteplici frontiere in alto, la Cina sta assumendo un ruolo guida nei modelli aperti, sistemi piccoli ed efficienti stanno rapidamente maturando e ecosistemi creativi come Midjourney vengono inseriti in grandi stack tecnologici.
Sono grato non solo per qualsiasi modello, ma per il fatto che ora lo abbiamo. opzioni — chiuso e aperto, locale e ospitato, prima il ragionamento e prima i media. Per giornalisti, costruttori e imprese, questa diversità è la vera storia del 2025.
Buone vacanze e tanti auguri a te e ai tuoi cari!
