Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora


L’aumento delle caratteristiche di ricerca profonda e altre analisi supportate dall’intelligenza artificiale ha portato a più modelli e servizi che vogliono semplificare questo processo e leggere di più dei documenti utilizzati dalle imprese.

Canada AI Company Incontro Le caratteristiche di ricerca profonde dovrebbero essere ottimizzate per l’uso aziendale, incluso il modello visivo appena pubblicato, incluso il settore bancario.

La società ha pubblicato il comando una visione, un modello visivo, che è costruito dietro un modello di comando, che mira alle sue situazioni di utilizzo istituzionale. Il modello di parametri da 112 miliardi può aprire informazioni preziose dai dati visivi e il documento può prendere decisioni estremamente accurate e orientate ai dati attraverso il riconoscimento ottico dei caratteri (OCR) e l’analisi delle immagini, oppure dice.

“Sia che si tratti di interpretare le guide dei prodotti con diagrammi complessi o di analizzare le foto delle scene nel mondo reale per il rilevamento del rischio, un comando di visione sta lottando con le difficoltà di visione aziendale più impegnative”, ha affermato. In un post sul blog.


La serie di effetto AI torna a San Francisco – 5 agosto

La prossima fase dell’intelligenza artificiale è qui – sei pronto? Per uno sguardo speciale a come gli agenti autonomi rimodellano i flussi di lavoro aziendali, Block, GSK e SAP si sono uniti ai leader dalla fine all’estremità senza prendere decisioni.

Ora aggiusta il tuo posto: l’area è limitata: https://bit.ly/3guupplf


Ciò significa che una visione può leggere e analizzare i tipi più comuni di immagini di cui le aziende hanno bisogno: grafica, grafica, diagrammi, documenti scansionati e PDF.

Poiché il comando A è costruito sull’architettura del comando, il comando richiede una visione, proprio come il modello di testo, richiede due o meno GPU. Il modello di visione protegge anche le capacità di testo del comando A per leggere le parole nelle immagini e comprende almeno 23 lingue. A differenza di altri modelli, Cohere ha affermato che un comando di visione riduce il costo totale di proprietà per le aziende ed è stato completamente ottimizzato per le aziende per le imprese.

Quanto costa il comando architetto

Cohere, a Architettura LLAV Un modello, incluso il modello visivo per creare il comando. Questa architettura trasforma le sue caratteristiche visive in monete di visione morbida che possono essere divise in piastrelle diverse.

Queste piastrelle vengono trasferite a una torre di testo, “Parametri intensivi, 111b al testo LLM”. “In questo modo, una singola immagine consuma 3.328 monete.”

Cohere ha affermato di aver addestrato il modello visivo in tre fasi: allineamento di Visual-Dili, ancora fine temporaneo (SFT) e apprendimento di rinforzo post-allenamento (RLHF).

“Questo approccio consente alle funzionalità di corrispondenza di corrispondenza di essere equipaggiate con l’area di posizionamento nel modello linguistico”, ha affermato la società. “Al contrario, durante la fase SFT, abbiamo anche seguito l’encoder della visione, l’adattatore di visione e il modello linguistico e le attività multimodali seguendo una vasta gamma di istruzioni.”

Visualizzazione AI aziendale

I test di riferimento hanno mostrato una visione che funziona meglio di altri modelli con caratteristiche visive simili.

Un comando di visione per Coere ha segnato ApertoGPT 4.1, Meta4 Chiama Maverick, FatturaNei nove test di confronto, la terza società Pixral Large and Mrastral Environment non ha menzionato se l’API orientata all’OCR dell’OCR testata contro l’OCR messo.

Comandare una visione, Chartqa, Ocbench, AI2D e TextVQA testati altri modelli nei test. In generale, una visione aveva un punteggio medio dell’83,1% rispetto al 78,6% del GPT 4,1, all’80,5% di LAMA 4 Maverick e dal 78,3% al mezzo merale 3.

Al giorno d’oggi, la maggior parte dei modelli di linguaggio di grandi dimensioni (LLM) può creare o comprendere supporti visivi, come foto o video multimodali, cioè. Tuttavia, le aziende spesso utilizzano più documenti grafici come grafica e PDF, quindi è spesso difficile ottenere informazioni da queste fonti di dati non configurate.

Con le crescenti ricerche, l’importanza di portare modelli che possono leggere, analizzati e persino scaricare i dati strutturati delle Nazioni Unite è cresciuta.

Cohere ha anche affermato che offre una visione nel sistema a peso aperto, sperando che le aziende che vogliono allontanarsi da modelli chiusi o registrati inizino a utilizzare i loro prodotti. Finora, gli sviluppatori hanno qualcosa a che fare.


Collegamento alla fonte