Le organizzazioni che creavano flussi di lavoro abilitati alla voce disponevano di opzioni limitate per la trascrizione a livello di produzione: API chiuse che comportavano rischi di residenza dei dati o modelli aperti che sacrificavano la precisione a favore della distribubilità. Transcribe, il nuovo modello ASR open-heavy di Cohere, è progettato per competere su tutti e quattro i principali fattori di differenziazione: accuratezza contestuale, latenza, controllo e costo.

Cohere afferma che Transcribe supera gli attuali leader in termini di precisione e, a differenza delle API chiuse, può essere eseguito sull’infrastruttura di un’organizzazione.

Cohere, accessibile tramite un’API o in Cohere Model Vault come cohere-transcribe-03-2026, ha 2 miliardi di parametri ed è concesso in licenza con Apache-2.0. La società ha affermato che il tasso medio di errori di parola (WER) di Transcribe è solo del 5,42%, il che significa che fa meno errori rispetto a modelli simili.

Le istruzioni sono fornite in 14 lingue: inglese, francese, tedesco, italiano, spagnolo, greco, olandese, polacco, portoghese, cinese, giapponese, coreano, vietnamita e arabo. L’azienda non ha specificato su quale dialetto cinese è stata addestrata la modella.

Cohere ha affermato di aver addestrato il modello “con un’attenzione deliberata alla riduzione del WER, tenendo presente la preparazione della produzione”. Il risultato, secondo Cohere, è un modello in cui le aziende possono connettersi direttamente ad automazioni attivate dalla voce, pipeline di trascrizione e flussi di lavoro di ricerca vocale.

Trascrizione self-hosted per pipeline di produzione

Fino a poco tempo fa, la trascrizione istituzionale era un metodo di scambio; le API chiuse offrivano precisione ma erano bloccate nei dati; i modelli aperti fornivano il controllo ma non erano all’altezza delle prestazioni. A differenza di Whisper, lanciato come modello di ricerca con licenza MIT, Transcribe è disponibile per uso commerciale sin dal suo lancio e può essere eseguito sull’infrastruttura GPU nativa di un’organizzazione. I primi utenti hanno segnalato che l’approccio commerciale standardizzato era sensato per le implementazioni aziendali.

Le organizzazioni possono portare Transcribe nelle proprie istanze locali, poiché Cohere afferma che il modello ha uno spazio di inferenza più gestibile per le GPU native. La società ha affermato di essere stata in grado di raggiungere questo obiettivo perché il modello “estende la frontiera di Pareto fornendo una precisione all’avanguardia (basso WER) pur mantenendo il throughput migliore della categoria (alto RTFx) all’interno della coorte di modelli con parametri 1B+”.

Come si accumula Transcribe

Trascrivi potenti prodotti per modelli vocali dalle prestazioni elevate come Whisper di OpenAI, che supporta la funzionalità vocale di ChatGPT, ed ElevenLabs, utilizzato da molti dei principali marchi di vendita al dettaglio. Attualmente al top Classifica Hugging Face ASRÈ in testa con un tasso medio di errori di parola del 5,42%, superando Whisper Large v3 al 7,44%, ElevenLabs Scribe v2 al 5,83% e Qwen3-ASR-1.7B al 5,76%.

Transcribe ha ottenuto buoni risultati anche rispetto ad altri set di dati testati da Hugging Face. Il set di dati AMI, che misura la comprensione degli incontri e l’analisi delle conversazioni, ha rilevato che Transcribe ha registrato un punteggio dell’8,15%. Sul set di dati Voxpopuli, che verifica la comprensione dei diversi accenti, il modello ha ottenuto il 5,87%, battendo solo Zoom Scribe.

I primi utenti hanno segnalato la precisione e la distribuzione nativa come fattori di spicco, soprattutto per i team che instradano i dati vocali attraverso API esterne e desiderano spostare il carico di lavoro in sede.

Per i team di ingegneri che creano pipeline RAG o flussi di lavoro degli agenti con input audio, Transcribe offre un percorso verso la trascrizione a livello di produzione senza le penalità di residenza dei dati e latenza delle API chiuse.

Collegamento alla fonte