Intelligenza Artificiale MistralLa startup con sede a Parigi, che si posiziona come la risposta europea a OpenAI, mercoledì ha rilasciato un paio di modelli di sintesi vocale che secondo l’azienda possono trasmettere l’audio più velocemente, in modo più accurato e molto più economico di qualsiasi altra cosa sul mercato; E tutto mentre viene eseguito interamente su uno smartphone o un laptop.
L’annuncio segna l’ultimo colpo in una battaglia sempre più competitiva sull’intelligenza artificiale vocale, una tecnologia che i clienti aziendali considerano essenziale per tutto, dal servizio clienti automatizzato alla traduzione in tempo reale. Tuttavia, a differenza delle offerte dei colossi tecnologici americani, la novità di Mistral Trascrizione vostrale 2 i modelli sono progettati per gestire audio sensibile senza mai trasmetterlo a server remoti; Questa è una caratteristica che può essere decisiva per le aziende che operano in settori regolamentati come la sanità, la finanza e la difesa.
"Vuoi che la tua voce e la trascrizione della tua voce siano vicine alla tua posizione, quindi vuoi che siano sul dispositivo (laptop, telefono o smartwatch)." Lo ha detto Pierre Stock, vicepresidente delle operazioni scientifiche di Mistral, in un’intervista a VentureBeat. "Lo rendiamo possibile perché il modello è composto da soli 4 miliardi di parametri. È abbastanza piccolo da adattarsi quasi ovunque."
Mistral introduce la nuova tecnologia di trascrizione AI nell’elaborazione batch e nelle applicazioni in tempo reale
Mistral ha rilasciato due diversi modelli sotto il banner Voxtral Transcribe 2, ciascuno progettato per casi d’uso diversi.
-
Voxtral Mini Trascrivere V2 gestisce la trascrizione batch e l’elaborazione batch di file audio preregistrati. L’azienda afferma di raggiungere il tasso di errore di parole più basso di qualsiasi altro servizio di trascrizione ed è disponibile tramite API per 0,003 dollari al minuto, circa un quinto del prezzo dei principali concorrenti. Il modello supporta 13 lingue, tra cui inglese, mandarino, giapponese, arabo, hindi e diverse lingue europee.
-
Voxtral in tempo realeCome suggerisce il nome, elabora l’audio dal vivo con un ritardo configurabile fino a 200 millisecondi (un batter d’occhio). Mistral sostiene che si tratta di una svolta per le applicazioni in cui anche un ritardo di due secondi è inaccettabile: sottotitoli in tempo reale, agenti vocali e potenziamento del servizio clienti in tempo reale.
modello in tempo reale sotto una nave Apache 2.0 La licenza open source significa che gli sviluppatori possono scaricare i pesi dei modelli da: Volto che abbracciaModificali e distribuiscili senza pagare costi di licenza a Mistral. Per le aziende che scelgono di non gestire la propria infrastruttura, il costo al minuto di accesso API è di 0,006 dollari.
Mistral ha fatto affidamento sulla comunità open source per espandere la portata del modello, ha affermato Stock. "La comunità open source è piuttosto creativa quando si tratta di applicazioni." ha detto. "Siamo entusiasti di vedere cosa faranno."
Perché l’elaborazione dell’intelligenza artificiale sul dispositivo è importante per le organizzazioni che gestiscono dati sensibili?
La decisione di progettare modelli sufficientemente piccoli da poter essere gestiti a livello locale riflette un calcolo sulla direzione in cui si sta dirigendo il mercato aziendale. Man mano che le aziende integrano l’intelligenza artificiale in flussi di lavoro sempre più sensibili – trascrizione di consultazioni mediche, chiamate di consulenza finanziaria, documenti legali – la questione di dove vanno a finire quei dati è diventata un problema.
Stock ha dipinto un quadro vivido del problema durante la sua intervista. Ha spiegato che le attuali app per prendere appunti con funzionalità audio spesso rilevano il rumore ambientale in modi problematici: "Può captare i testi della musica in sottofondo. Potrebbe iniziare un’altra conversazione. Potrebbe avere allucinazioni a causa del rumore di fondo."
Per risolvere questi problemi, Mistral ha investito molto nell’ottimizzazione dei dati e nella formazione sull’architettura del modello. "Detto questo, dedichiamo molto tempo al modo in cui addestriamo i dati per perfezionarli e rendere robusto il modello." Ha detto azioni.
L’azienda ha anche aggiunto funzionalità specifiche per l’azienda che i suoi rivali americani sono stati più lenti a implementare. La contestualizzazione consente ai clienti di caricare un elenco di terminologia personalizzata, come gergo medico, nomi di prodotti proprietari, acronimi di settore, ecc., e il modello preferisce automaticamente questi termini quando trascrive suoni ambigui. A differenza della messa a punto, che richiede la riqualificazione del modello, la ponderazione del contesto funziona tramite un semplice parametro API.
"Hai solo bisogno di un elenco di testo," Stock spiegato. "E poi il modello guiderà automaticamente la trascrizione in base a queste abbreviazioni o a queste strane parole. E zero spari, nessuna necessità di riqualificazione, nessuna necessità di cose strane."
Mistral si rivolge agli ambienti industriali ad alto rumore, dagli stabilimenti ai call center
Stock ha descritto due scenari che illustrano come Mistral prevede l’implementazione della tecnologia.
Il primo di questi riguarda il controllo industriale. Immaginate i tecnici che vagano per un impianto di produzione, ispezionando macchinari pesanti mentre gridano le loro osservazioni al di sopra del frastuono del rumore della fabbrica. "Alla fine, pensate a queste note come a note perfettamente contrassegnate con data e ora che identificano chi ha detto cosa, ad esempio inserite nel diario, e sono anche super robuste," Ha detto azioni. La sfida è prendere ciò che sta dicendo "strano linguaggio tecnico che nessuno tranne queste persone sa scrivere."
Il secondo scenario riguarda le operazioni del servizio clienti. Quando un chiamante contatta un centro di supporto, Voxtral Realtime può trascrivere la conversazione in tempo reale e inserire il testo nei sistemi backend che recuperano i record rilevanti del cliente prima che il chiamante abbia finito di descrivere il problema.
"La situazione apparirà sullo schermo per l’operatore prima che il cliente emetta la multa e smetta di lamentarsi," Stock spiegato. "Ciò significa che puoi semplicemente interagire e dire: “Okay, posso vedere la situazione”. Permettimi di correggere l’indirizzo e rispedire indietro il carico.’"
Ciò, secondo le sue previsioni, potrebbe ridurre le tipiche interazioni del servizio clienti da molteplici scambi avanti e indietro a sole due interazioni: il cliente spiega il problema e il rappresentante lo risolve immediatamente.
La traduzione multilingue in tempo reale potrebbe arrivare entro la fine del 2026
Concentrandosi sulla trascrizione, Stock ha chiarito che Mistral vede questi modelli come la tecnologia fondamentale per un obiettivo più ambizioso: una traduzione da parlato a parlato in tempo reale che sembri naturale.
"Forse l’obiettivo finale è la traduzione dal vivo, ovvero l’applicazione e su cosa si basa il modello," ha detto. "Io parlo francese, tu parli inglese. È molto importante avere un ritardo minimo, perché altrimenti non puoi entrare in empatia. Il tuo viso non è fuori sincronia con quello che hai detto un secondo fa."
Questo obiettivo mette Mistral in diretta concorrenza Mela E GoogleEntrambi competono per risolvere lo stesso problema. Il più recente di Google modello di traduzione funziona con un ritardo di due secondi; Dieci volte più lento di quanto sostiene Mistral Voxtral in tempo reale.
Mistral si posiziona come un’alternativa attenta alla privacy per i clienti aziendali
Mistral occupa una posizione insolita nel panorama dell’IA. Fondata nel 2023 dagli ex studenti di Meta e Google DeepMind, la società ha generato entrate per oltre 2 miliardi di dollari e attualmente ha una valutazione di circa 2 miliardi di dollari. 13,6 miliardi di dollari. Tuttavia, opera con una frazione delle risorse informatiche a disposizione degli hyperscaler americani e ha costruito la sua strategia sull’efficienza piuttosto che sulla forza bruta.
"I modelli che stiamo introducendo sul mercato sono di livello aziendale, leader del settore, efficienti, soprattutto dal punto di vista dei costi, implementabili all’edge, sbloccando la privacy, sbloccando il controllo, sbloccando la trasparenza," Ha detto azioni.
Questo approccio ha avuto particolare risonanza tra i clienti europei diffidenti nei confronti della dipendenza dalla tecnologia americana. Francia a gennaio Ministero delle Forze Armate Firmato un accordo quadro che garantisce al paese l’accesso militare ai modelli di intelligenza artificiale di Mistral; si trattava di un accordo che richiedeva esplicitamente lo spiegamento di infrastrutture controllate dai francesi.
"Secondo me l’ostacolo più grande all’adozione dell’AI vocale è questo; se operi in un settore delicato come quello finanziario, manifatturiero, sanitario o assicurativo potresti non avere le informazioni di cui stai parlando, basta passare al cloud," Howard Cohen, che è apparso con Stock nell’intervista, ha attirato l’attenzione. "Deve essere sul dispositivo o presso la tua struttura."
Mistral deve affrontare la dura concorrenza di OpenAI, Google e della Cina in ascesa
Il mercato della trascrizione è diventato estremamente competitivo. OpenAI modello sussurro è diventato uno standard del settore, disponibile sia tramite API che come pesi open source scaricabili. Google, AmazzoniaE Microsoft offrono tutti servizi vocali di livello aziendale. Come i giocatori esperti Assemblea AI E deepgram Abbiamo creato attività significative al servizio degli sviluppatori che necessitano di una trascrizione affidabile e scalabile.
Mistral afferma che i suoi nuovi modelli superano tutti i criteri di precisione, ma li riducono in termini di prezzo. "Siamo migliori di loro nei benchmark." Ha detto azioni. Ci vorrà del tempo prima che queste affermazioni vengano verificate in modo indipendente, ma l’azienda indica prestazioni a partire da: FIORIUn benchmark vocale multilingue ampiamente utilizzato in cui i modelli Voxtral raggiungono tassi di errore delle parole competitivi o superiori alle alternative OpenAI e Google.
Forse ancora più importante, il CEO di Mistral Arthur Mensch ha avvertito che le aziende americane di intelligenza artificiale si trovano ad affrontare pressioni provenienti da una direzione inaspettata. nella conversazione Forum economico mondiale A Davos il mese scorso, Mensch ha respinto l’idea che l’intelligenza artificiale cinese sia dietro a quella occidentale. "una fiaba."
"Le capacità della tecnologia open source cinese stanno probabilmente mettendo a dura prova gli amministratori delegati degli Stati Uniti." ha detto.
La startup francese ritiene che la fiducia determinerà il vincitore nell’intelligenza artificiale vocale aziendale
Le azioni hanno predetto il futuro del 2026 "anno in cui ho preso appunti" — Il momento in cui la trascrizione AI diventa sufficientemente affidabile da consentire agli utenti di fidarsi completamente di essa.
"Devi fidarti del modello e il modello sostanzialmente non può commettere errori, altrimenti perderai fiducia nel prodotto e smetterai di usarlo." ha detto. "La soglia è super, super difficile."
Non è ancora noto se Mistral abbia varcato questa soglia. I clienti aziendali saranno i decisori finali e tenderanno a muoversi lentamente, confrontando le affermazioni con la realtà prima di dedicare budget e flussi di lavoro alla nuova tecnologia. parco giochi sonoro Studio MistralDove gli sviluppatori possono testare Trascrizione vostrale 2 È stato pubblicato oggi con i propri file.
Ma l’argomentazione più ampia di Stock merita attenzione. In un mercato in cui i giganti americani competono spendendo miliardi di dollari su modelli sempre più grandi, Mistral fa una scommessa diversa: nell’era dell’intelligenza artificiale, ciò che è piccolo e locale può battere ciò che è più grande e distante. Per i dirigenti che trascorrono le giornate a preoccuparsi della sovranità dei dati, della conformità normativa e dei vincoli ai fornitori, questa presentazione potrebbe essere più interessante di qualsiasi benchmark.
La corsa per dominare l’intelligenza artificiale vocale aziendale non riguarda più solo chi crea il modello più forte. Riguarda chi modella chi sei disposto ad ascoltare.













