Ricercatori di MiroMind AI e di diverse università cinesi OpenMMReasonerUn nuovo quadro formativo che migliora le capacità dei modelli linguistici nel ragionamento multimodale.

Il framework utilizza un processo in due fasi. Innanzitutto, affina il modello base con un set di dati selezionato nella fase di fine tuning supervisionato (SFT). Successivamente, la fase di apprendimento per rinforzo (RL) guida il modello a ragionare in modo più efficace su compiti che coinvolgono sia dati testuali che visivi.

Gli esperimenti mostrano che i modelli addestrati con OpenMMReasoner generalmente superano altri principali modelli di ragionamento visivo quando addestrati su un set di dati più piccolo e di qualità superiore. Tutte le sue risorse, incluso il framework e un modello 7D addestrato, sono completamente open source e forniscono una base affidabile per la creazione di applicazioni che richiedono tracciabilità e robustezza.

OpenMMReasoner offre vantaggi significativi per le aziende che guardano oltre i grandi sistemi chiusi, secondo Kaichen Zhang, coautore di un documento di ricerca che delinea il nuovo metodo. "Un modello di ragionamento open source più piccolo presenta vantaggi pratici: le organizzazioni possono distribuirlo localmente, ridurre la latenza, ridurre i costi dei token associati a lunghe catene di pensiero, mantenere il pieno controllo sui propri dati e (esso) può essere ottimizzato per adattarsi alle loro attività secondarie specifiche." ha detto a VentureBeat.

La sfida del ragionamento multimodale trasparente.

I recenti progressi nell’apprendimento per rinforzo con ricompense verificabili (RLVR) hanno migliorato significativamente le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM). RLVR forma LLM nel settore manifatturiero catena di pensiero (CoT) (che imitano i processi di ragionamento utilizzati dagli esseri umani) prima di generare la risposta finale. Ciò migliora la capacità del modello di risolvere compiti di ragionamento complessi come matematica e codifica.

Motivati ​​da questo successo, i ricercatori hanno sviluppato metodi simili basati su RL. modelli multimodali di grandi dimensioni (LMM) mostrano che i benefici possono estendersi oltre il testo per migliorare la comprensione visiva e la risoluzione dei problemi attraverso diverse modalità.

Tuttavia, la mancanza di trasparenza nel processo educativo rappresenta un grosso ostacolo. Molti studi sul ragionamento multimodale non forniscono informazioni dettagliate sulla cura dei dati e sui processi di formazione, rendendo difficile riprodurre i risultati o comprendere cosa fa funzionare questi modelli.

“Questa mancanza di chiarezza limita la riproducibilità e ostacola una comprensione più profonda di come sono effettivamente costruiti gli LMM capaci di ragionare e di come si evolvono le loro dinamiche di formazione”, osservano i ricercatori.

Ricetta OpenMMReasoner

OpenMMReasoner colma questa lacuna con una ricetta di formazione completamente trasparente e scalabile basata su LMM open source. I ricercatori hanno scoperto che migliorare i set di dati di alta qualità ridimensionando la diversità dei dati è fondamentale. Sebbene fosse importante utilizzare diverse fonti di dati, l’aumento della diversità delle risposte corrette alla stessa domanda è stato l’asse principale del miglioramento.

La prima fase della ricetta è la pipeline di regolazione fine supervisionata (SFT) in tre fasi. Si inizia con l’acquisizione dei dati, in cui il team ha raccolto circa 103.000 coppie di domande-risposte grezze da set di dati pubblici che coprivano le comuni domande e risposte visive e le attività di ragionamento. Quindi hanno aggiunto un dato fase di distillazioneUtilizzando un modello potente (Qwen3-VL-235B-istruzioni) per generare nuove tracce di ragionamento di alta qualità per domande selezionate. (I dati verranno successivamente utilizzati per addestrare un modello più piccolo.)

Per aumentare la diversità delle risposte, il team ha creato più tracce di ragionamento convalidate per ciascuna domanda. Ciò ha ampliato il set di dati a 583.000 campioni. Infine, hanno implementato una fase di “miscelazione dei domini” aggiungendo dati provenienti da domini di ragionamento matematico per generalizzare ulteriormente le capacità del modello, ottenendo un set di dati PFT finale di 874.000 campioni.

La seconda fase è una ricetta RL che utilizza un set di dati più piccolo di 74.000 esempi selezionati da settori come scienza, matematica ed enigmi. Il modello viene addestrato con una funzione di ricompensa composita che tiene conto sia dell’accuratezza della risposta finale che della coerenza del formato di output. Per aumentare l’efficienza, il processo prevede una penalità per: "Troppi pensieri," impedire al modello di generare risposte eccessivamente lunghe (un problema in molti modelli di ragionamento addestrati tramite RL che imparano accidentalmente a generare sequenze di ragionamento eccessivamente lunghe, causando costi eccessivi e risposte più lente).

Questa ricetta può fornire un modello per le aziende che formano i propri modelli. "Una strategia praticabile per le aziende con dati limitati specifici del dominio è innanzitutto aumentare la diversità delle risposte per i set di dati esistenti, quindi utilizzare la fusione dei domini per integrare questi dati del dominio in una ricetta di ragionamento generale come la nostra." Zhang ha spiegato. "Ciò consente al modello di acquisire potenti capacità di ragionamento di carattere generale e allo stesso tempo di adattarsi a compiti specifici del settore senza bisogno di milioni di esempi."

Un modello di ragionamento più efficiente e capace

Secondo Zhang, il processo passo dopo passo cambia radicalmente l’affidabilità dei risultati del modello. "I modelli tradizionali spesso “saltano” verso una risposta diretta; Ciò significa che indagano solo una parte ristretta del dominio del ragionamento." ha detto. "Al contrario, un approccio basato sulla ragione costringe il modello a esaminare esplicitamente più passaggi intermedi… (permettendolo) di attraversare percorsi molto più profondi e arrivare a risposte con una coerenza interna molto maggiore."

I ricercatori hanno utilizzato la ricetta OpenMMReasoner per generare dati per mettere a punto il modello di linguaggio visivo open source Qwen2.5-VL-7B-Instruct. Il risultato è un LMM altamente capace che supera costantemente metodi all’avanguardia come: Ragionatore di visione aperta (OVR) attraverso un’ampia gamma di criteri di giudizio multimodali. La sola fase SFT crea un potente modello di base che fornisce prestazioni ed efficienza dei dati superiori rispetto ad altri approcci SFT, nonostante l’utilizzo di un set di dati di addestramento significativamente più piccolo.

La successiva fase RL affina e stabilizza ulteriormente queste capacità, portando a prestazioni più costanti e migliorate. Dopo RL, il modello finale raggiunge risultati all’avanguardia su più benchmark, tra cui WeMath, MathVerse e MathVista.

Uno dei risultati chiave è che, man mano che il modello si evolve nel ragionamento multimodale, diventa anche a "Il graduale emergere di comportamenti di ragionamento testuale suggerisce che la competenza di ragionamento viene trasferita da domini multimodali a domini puramente linguistici." Ciò suggerisce che le competenze apprese con un metodo possono migliorare le prestazioni con un altro, osservano i ricercatori.

"I nostri risultati mostrano che il rafforzamento del ragionamento multimodale può anche migliorare le abilità matematiche relative al solo testo; Questa è la prova che le capacità logiche di base possono essere trasferite tra metodi." disse Zhang. "Guardando al futuro, ci aspettiamo che questi metodi si estendano anche al video e all’audio."

I ricercatori hanno anche scoperto che l’efficienza dei token è molto importante. Sebbene consentire a un modello di generare passaggi di ragionamento più lunghi possa migliorare le prestazioni, un numero eccessivo di token riduce l’efficienza. I loro risultati mostrano che un aggiustamento minore "ragionamento di bilancio" può raggiungere una precisione comparabile o addirittura migliore; Si tratta di una considerazione importante nella distribuzione di applicazioni aziendali convenienti.

Con utilizzo open source di tutti i componenti Fornisce ai ricercatori una visione ripetibile dell’intero flusso di lavoro. Per i team aziendali, questa trasparenza ha un valore inestimabile. "Questo livello di trasparenza è vitale per i leader aziendali preoccupati dai vincoli ai fornitori, dai pregiudizi nascosti o dalle fonti di dati opache." Ha dichiarato Zhang. "Offre ai team il potere di convalidare i dati, personalizzare la pipeline per nuovi domini e mantenere l’indipendenza a lungo termine da qualsiasi provider."

Collegamento alla fonte