Home Politica Il modello ASR a ponderazione aperta di Cohere raggiunge un tasso di...

Politica

Il modello ASR a ponderazione aperta di Cohere raggiunge un tasso di errore di parola del 5,4%; questo tasso è sufficientemente basso da sostituire le API vocali nelle linee di produzione

30 Marzo 2026

Le organizzazioni che creavano flussi di lavoro abilitati alla voce disponevano di opzioni limitate per la trascrizione a livello di produzione: API chiuse che comportavano rischi di residenza dei dati o modelli aperti che sacrificavano la precisione a favore della distribubilità. Transcribe, il nuovo modello ASR open-heavy di Cohere, è progettato per competere su tutti e quattro i principali fattori di differenziazione: accuratezza contestuale, latenza, controllo e costo.

Cohere afferma che Transcribe supera gli attuali leader in termini di precisione e, a differenza delle API chiuse, può essere eseguito sull’infrastruttura di un’organizzazione.

Cohere, accessibile tramite un’API o in Cohere Model Vault come cohere-transcribe-03-2026, ha 2 miliardi di parametri ed è concesso in licenza con Apache-2.0. La società ha affermato che il tasso medio di errori di parola (WER) di Transcribe è solo del 5,42%, il che significa che fa meno errori rispetto a modelli simili.

Le istruzioni sono fornite in 14 lingue: inglese, francese, tedesco, italiano, spagnolo, greco, olandese, polacco, portoghese, cinese, giapponese, coreano, vietnamita e arabo. L’azienda non ha specificato su quale dialetto cinese è stata addestrata la modella.

Cohere ha affermato di aver addestrato il modello “con un’attenzione deliberata alla riduzione del WER, tenendo presente la preparazione della produzione”. Il risultato, secondo Cohere, è un modello in cui le aziende possono connettersi direttamente ad automazioni attivate dalla voce, pipeline di trascrizione e flussi di lavoro di ricerca vocale.

Trascrizione self-hosted per pipeline di produzione

Fino a poco tempo fa, la trascrizione istituzionale era un metodo di scambio; le API chiuse offrivano precisione ma erano bloccate nei dati; i modelli aperti fornivano il controllo ma non erano all’altezza delle prestazioni. A differenza di Whisper, lanciato come modello di ricerca con licenza MIT, Transcribe è disponibile per uso commerciale sin dal suo lancio e può essere eseguito sull’infrastruttura GPU nativa di un’organizzazione. I primi utenti hanno segnalato che l’approccio commerciale standardizzato era sensato per le implementazioni aziendali.

Le organizzazioni possono portare Transcribe nelle proprie istanze locali, poiché Cohere afferma che il modello ha uno spazio di inferenza più gestibile per le GPU native. La società ha affermato di essere stata in grado di raggiungere questo obiettivo perché il modello “estende la frontiera di Pareto fornendo una precisione all’avanguardia (basso WER) pur mantenendo il throughput migliore della categoria (alto RTFx) all’interno della coorte di modelli con parametri 1B+”.

Come si accumula Transcribe

Trascrivi potenti prodotti per modelli vocali dalle prestazioni elevate come Whisper di OpenAI, che supporta la funzionalità vocale di ChatGPT, ed ElevenLabs, utilizzato da molti dei principali marchi di vendita al dettaglio. Attualmente al top Classifica Hugging Face ASRÈ in testa con un tasso medio di errori di parola del 5,42%, superando Whisper Large v3 al 7,44%, ElevenLabs Scribe v2 al 5,83% e Qwen3-ASR-1.7B al 5,76%.

Transcribe ha ottenuto buoni risultati anche rispetto ad altri set di dati testati da Hugging Face. Il set di dati AMI, che misura la comprensione degli incontri e l’analisi delle conversazioni, ha rilevato che Transcribe ha registrato un punteggio dell’8,15%. Sul set di dati Voxpopuli, che verifica la comprensione dei diversi accenti, il modello ha ottenuto il 5,87%, battendo solo Zoom Scribe.

I primi utenti hanno segnalato la precisione e la distribuzione nativa come fattori di spicco, soprattutto per i team che instradano i dati vocali attraverso API esterne e desiderano spostare il carico di lavoro in sede.

Per i team di ingegneri che creano pipeline RAG o flussi di lavoro degli agenti con input audio, Transcribe offre un percorso verso la trascrizione a livello di produzione senza le penalità di residenza dei dati e latenza delle API chiuse.

Collegamento alla fonte

Il modello ASR a ponderazione aperta di Cohere raggiunge un tasso di errore di parola del 5,4%; questo tasso è sufficientemente basso da sostituire le API vocali nelle linee di produzione

Trascrizione self-hosted per pipeline di produzione

Come si accumula Transcribe

Ultimo post

Guida all’aggiornamento di AirPods Max 2: dovresti eseguire l’aggiornamento

Come trovare la stagione dei colori in casa, guida all’analisi del...

Burchett: “Molti repubblicani non sostengono l’attacco di terra all’Iran”

Brookfield acquista Fidere per 1 miliardo e 50 milioni di dollari

Epic Games reagisce dopo che i licenziamenti di Fortnite hanno rivelato...

Laura Dern nel ruolo della giornalista investigativa Julie K. nella serie...

Il personale della TSA ha chiesto di restituire la carta regalo...

Rapporto: la NFL inizierà ad assumere arbitri sostitutivi

I ladri hanno rubato dipinti di Renoir, Cézanne e Matisse da...

Dov’è adesso Joseph Duggar dopo il suo arresto nel 2026? Quello...

Le potenziali richieste di denaro di Aaron Rodgers mettono i fan...

Pin AI di Apple trapelato: accessorio indossabile 2027 per iPhone AI

Categoria