Dopo aver rilasciato l’ultima versione del modello core Olmo, l’Allen Institute for Artificial Intelligence (Ai2) mira a dimostrare che modelli più piccoli e aperti possono essere opzioni praticabili per le aziende focalizzate sulla comprensione e analisi dei video rilasciando martedì il suo modello video open source Molmo 2.
Uno Comunicato stampaLa società ha affermato che Molmo 2 “prende i punti di forza di Molmo nella visione principale e li estende alla comprensione video e multi-visione”; una capacità in gran parte dominata da modelli proprietari più grandi.
Ai2 ha rilasciato tre versioni di Molmo 2:
-
Bocca 2 8BUn modello basato su Qwen-3, che Ai2 descrive come “il miglior modello complessivo per il video basing e il QA”
-
Bocca 2 4Bprogettato per implementazioni più efficienti
-
Bocca 2-O 7BCostruito sul modello Olmo
Molmo 2 supporta input a visualizzazione singola e multipla, nonché clip video di diversa durata, consentendo attività quali messa a terra video, monitoraggio e risposta a domande.
“Uno dei nostri obiettivi chiave di progettazione era colmare una grande lacuna nei modelli aperti: la messa a terra”, ha affermato Ai2 nel comunicato stampa.
L’azienda ha presentato per la prima volta la famiglia di modelli multimodali aperti Molmo lo scorso anno, iniziando dalle immagini. Ai2 ha affermato che Molmo 2 supera le versioni precedenti in termini di precisione, comprensione temporale e messa a terra a livello di pixel, e in alcuni casi funziona in modo competitivo con modelli più grandi come Gemini 3 di Google.
Confronto di Molmo 2
Nonostante le loro dimensioni più piccole, i modelli Molmo 2 hanno sovraperformato il Gemini 3 Pro e altri concorrenti leggeri nei benchmark di riproduzione video.
Ai2 ha affermato che in termini di imaging e ragionamento multi-immagine, il Molmo 2 8B “è leader tra tutti i modelli a peso aperto, con la variante 4B subito dietro”. I modelli 8B e 4B hanno mostrato ottime prestazioni anche nella valutazione delle preferenze umane Elo a peso aperto; tuttavia, Ai2 ha notato che i modelli dedicati più grandi continuano a essere in testa nel complesso in questo benchmark.
Ma i maggiori vantaggi del Molmo 2 riguardano l’area della messa a terra e del conteggio dei video, dove ottiene punteggi più alti rispetto a modelli simili a peso aperto.
“Questi risultati evidenziano sia i progressi che il divario rimanente; la messa a terra del video rimane sfuggente e nessun modello raggiunge ancora una precisione del 40%," Ha detto Ai2, riferendosi ai benchmark attuali.
Molti modelli video, come Veo 3.1 di Google e Sora di OpenAI, sono spesso molto grandi. Molmo 2 mira a un compromesso diverso: modelli più piccoli e aperti ottimizzati per il radicamento e l’analisi piuttosto che per la creazione di video.















