Home Politica Il nuovo modello di visione di Cohere sta lavorando in due GPU,...

Politica

Il nuovo modello di visione di Cohere sta lavorando in due GPU, sconfiggendo i VLM senior nelle attività visive

1 Agosto 2025

Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora

L’aumento delle caratteristiche di ricerca profonda e altre analisi supportate dall’intelligenza artificiale ha portato a più modelli e servizi che vogliono semplificare questo processo e leggere di più dei documenti utilizzati dalle imprese.

Canada AI Company Incontro Le caratteristiche di ricerca profonde dovrebbero essere ottimizzate per l’uso aziendale, incluso il modello visivo appena pubblicato, incluso il settore bancario.

La società ha pubblicato il comando una visione, un modello visivo, che è costruito dietro un modello di comando, che mira alle sue situazioni di utilizzo istituzionale. Il modello di parametri da 112 miliardi può aprire informazioni preziose dai dati visivi e il documento può prendere decisioni estremamente accurate e orientate ai dati attraverso il riconoscimento ottico dei caratteri (OCR) e l’analisi delle immagini, oppure dice.

“Sia che si tratti di interpretare le guide dei prodotti con diagrammi complessi o di analizzare le foto delle scene nel mondo reale per il rilevamento del rischio, un comando di visione sta lottando con le difficoltà di visione aziendale più impegnative”, ha affermato. In un post sul blog.

La serie di effetto AI torna a San Francisco – 5 agosto

La prossima fase dell’intelligenza artificiale è qui – sei pronto? Per uno sguardo speciale a come gli agenti autonomi rimodellano i flussi di lavoro aziendali, Block, GSK e SAP si sono uniti ai leader dalla fine all’estremità senza prendere decisioni.

Ora aggiusta il tuo posto: l’area è limitata: https://bit.ly/3guupplf

Ciò significa che una visione può leggere e analizzare i tipi più comuni di immagini di cui le aziende hanno bisogno: grafica, grafica, diagrammi, documenti scansionati e PDF.

? @Cohere Ha appena lasciato un comando di visione @huginggface ?
Progettato per l’uso di utilizzo multimodale aziendale: interpretazione delle guide dei prodotti, analizzare le foto, chiedere grafica … ??
Dai un’occhiata a una metrica di benchmark del modello di linguaggio visione intensivo 112B con prestazioni souffic … pic.twitter.com/ormfm5f8cf
– Jeff Boudier? (@ject) 31 luglio 2025

Poiché il comando A è costruito sull’architettura del comando, il comando richiede una visione, proprio come il modello di testo, richiede due o meno GPU. Il modello di visione protegge anche le capacità di testo del comando A per leggere le parole nelle immagini e comprende almeno 23 lingue. A differenza di altri modelli, Cohere ha affermato che un comando di visione riduce il costo totale di proprietà per le aziende ed è stato completamente ottimizzato per le aziende per le imprese.

Quanto costa il comando architetto

Cohere, a Architettura LLAV Un modello, incluso il modello visivo per creare il comando. Questa architettura trasforma le sue caratteristiche visive in monete di visione morbida che possono essere divise in piastrelle diverse.

Queste piastrelle vengono trasferite a una torre di testo, “Parametri intensivi, 111b al testo LLM”. “In questo modo, una singola immagine consuma 3.328 monete.”

Cohere ha affermato di aver addestrato il modello visivo in tre fasi: allineamento di Visual-Dili, ancora fine temporaneo (SFT) e apprendimento di rinforzo post-allenamento (RLHF).

“Questo approccio consente alle funzionalità di corrispondenza di corrispondenza di essere equipaggiate con l’area di posizionamento nel modello linguistico”, ha affermato la società. “Al contrario, durante la fase SFT, abbiamo anche seguito l’encoder della visione, l’adattatore di visione e il modello linguistico e le attività multimodali seguendo una vasta gamma di istruzioni.”

Visualizzazione AI aziendale

I test di riferimento hanno mostrato una visione che funziona meglio di altri modelli con caratteristiche visive simili.

Un comando di visione per Coere ha segnato ApertoGPT 4.1, Meta4 Chiama Maverick, FatturaNei nove test di confronto, la terza società Pixral Large and Mrastral Environment non ha menzionato se l’API orientata all’OCR dell’OCR testata contro l’OCR messo.

Rappresentanti, diapositive, diagrammi, PDF e foto contenenti attività noiose con il blocco dell’automazione per vedere i dati visivi della tua organizzazione in modo sicuro. pic.twitter.com/ihznuwekrk
– Cohere (@Cohere) 31 luglio 2025

Comandare una visione, Chartqa, Ocbench, AI2D e TextVQA testati altri modelli nei test. In generale, una visione aveva un punteggio medio dell’83,1% rispetto al 78,6% del GPT 4,1, all’80,5% di LAMA 4 Maverick e dal 78,3% al mezzo merale 3.

Al giorno d’oggi, la maggior parte dei modelli di linguaggio di grandi dimensioni (LLM) può creare o comprendere supporti visivi, come foto o video multimodali, cioè. Tuttavia, le aziende spesso utilizzano più documenti grafici come grafica e PDF, quindi è spesso difficile ottenere informazioni da queste fonti di dati non configurate.

Con le crescenti ricerche, l’importanza di portare modelli che possono leggere, analizzati e persino scaricare i dati strutturati delle Nazioni Unite è cresciuta.

Cohere ha anche affermato che offre una visione nel sistema a peso aperto, sperando che le aziende che vogliono allontanarsi da modelli chiusi o registrati inizino a utilizzare i loro prodotti. Finora, gli sviluppatori hanno qualcosa a che fare.

Sono rimasto molto colpito dall’accuratezza delle note scritte a mano scritte a mano!
– Adam Sardo (@sardo_adam) 31 luglio 2025

Alla fine, l’IA non giudicherà i miei terribili sbatti.
– Martha Wisen? (@Martwiser) 1 agosto 2025

Informazioni quotidiane sull’utilizzo del business con quotidianamente ecc.

Se vuoi impressionare il tuo capo, ci sono quotidianamente, ecc. Dai turni normativi alle distribuzioni pratiche, ti diamo ciò che le aziende fanno con l’intelligenza artificiale produttiva, in modo da poter condividere informazioni per il massimo YG.

Leggi la nostra politica sulla privacy

Grazie per aver iscritto. Dai un’occhiata di più ecc.

C’è stato un errore.

Collegamento alla fonte

Il nuovo modello di visione di Cohere sta lavorando in due GPU, sconfiggendo i VLM senior nelle attività visive

Quanto costa il comando architetto

Visualizzazione AI aziendale

Ultimo post

HSBC analizza 20.000 tagli di posti di lavoro a causa dell’intelligenza...

Utilizza Microsoft Copilot per gli ordini del giorno degli eventi e...

La leggenda dei Patriots accenna all’imminente scambio di AJ Brown

Olivia Rodrigo esce con Louis Partridge, visita alla città natale

MacFarlane Toys rilascia la figura del Joker di Jack Nicholson

Kerry Washington afferma che la scena dell’aborto “scandaloso” è stata “catartica”...

I Blackhawks cercano la redenzione contro Wild in uno scontro emozionante

L’agente IA ribelle di Meta ha superato tutti i controlli di...

La stagione di The Bachelor di Taylor Frankie Paul è stata...

Un uomo novantenne di Ocean City parla di 10.000 giorni trascorsi...

Samsung Galaxy Z Fold 8 vs iPhone Fold: confronto 2026

Taylor Frankie Paul, Dakota Mortensen Video 2023 Conflitto

Categoria