Meta ne ha rilasciato uno nuovo sistema di riconoscimento vocale automatico multilingue (ASR). Supporta più di 1.600 lingue; Fa impallidire il modello Whisper open source di OpenAI, che supporta solo 99 lingue.
L’architettura consente inoltre agli sviluppatori di estendere questo supporto ad altre migliaia di persone. Attraverso una funzionalità chiamata apprendimento in contesto zero-shot, gli utenti presentano diversi campioni audio e di testo accoppiati in una nuova lingua durante l’inferenza, consentendo al modello di trascrivere frasi aggiuntive in quella lingua senza alcuna riqualificazione.
In pratica, ciò espande il potenziale ambito a più di 5.400 lingue (più o meno tutte le lingue parlate con un alfabeto conosciuto).
Si tratta di un passaggio dalle capacità del modello statico a un quadro flessibile a cui le comunità possono adattarsi da sole. Quindi, mentre 1.600 lingue riflettono la portata della formazione formale, la cifra più grande rappresenta la capacità di generalizzazione su richiesta di Omnilingual ASR, rendendolo il sistema di riconoscimento vocale più estensibile mai rilasciato fino ad oggi.
Meglio ancora: è open source sotto una semplice licenza Apache 2.0 – non una licenza Llama restrittiva e semi-open source come le versioni precedenti dell’azienda; questa licenza è limitata all’utilizzo da parte di organizzazioni più grandi a meno che non paghino i costi di licenza; Ciò significa che ricercatori e sviluppatori possono immediatamente prelevarlo e applicarlo gratuitamente, senza alcuna restrizione, anche in progetti commerciali e di livello aziendale!
Pubblicato il 10 novembre Il sito web di Meta, Githubinsieme ad uno Area demo presso Hugging Face E documento tecnicoLa suite ASR multilingue di Meta include una famiglia di modelli di riconoscimento vocale, un modello di rappresentazione vocale multilingue da 7 miliardi di parametri e un enorme corpus vocale che copre più di 350 lingue precedentemente sottoservite.
Tutte le risorse sono disponibili gratuitamente con licenze aperte e i modelli supportano immediatamente la conversione da voce a testo.
“Con l’open source di questi modelli e set di dati, miriamo ad abbattere le barriere linguistiche, espandere l’accesso digitale e rafforzare le comunità in tutto il mondo”, ha affermato Meta. Account @AIatMeta su X
Progettato per la trascrizione da parlato a testo
L’ASR omnilingue è essenzialmente un sistema di sintesi vocale.
I modelli sono addestrati per convertire la lingua parlata in testo scritto, supportando applicazioni come assistenti vocali, strumenti di trascrizione, sottotitoli, digitalizzazione di archivi parlati e funzionalità di accessibilità per lingue con risorse limitate.
A differenza dei precedenti modelli ASR che richiedevano dati di addestramento etichettati estesi, Omnilingual ASR include una variante zero-shot.
Questa versione può trascrivere lingue mai viste prima, utilizzando solo pochi campioni di suoni accoppiati e testo corrispondente.
Ciò riduce significativamente la barriera all’aggiunta di lingue nuove o in via di estinzione, eliminando la necessità di corpora di grandi dimensioni o di riqualificazione.
Famiglia di modelli e progettazione tecnica
La suite Omnilingual ASR comprende più famiglie di modelli addestrati su oltre 4,3 milioni di ore di audio in più di 1.600 lingue:
-
Modelli wav2vec 2.0 per l’apprendimento della rappresentazione vocale autosupervisionato (parametri 300M–7B)
-
Modelli ASR basati su CTC per una trascrizione controllata efficiente.
-
Modelli LLM-ASR che combinano il codec vocale con il decodificatore di testo basato su Transformer per una trascrizione all’avanguardia
-
Modello LLM-ZeroShot ASR che consente l’adattamento del tempo di inferenza a lingue invisibili
Tutti i modelli seguono un design codificatore-decodificatore: l’audio grezzo viene trasformato in una rappresentazione indipendente dalla lingua, quindi decodificato in testo scritto.
Perché la scala è importante?
Sebbene Whisper e modelli simili abbiano capacità ASR avanzate per le lingue globali, non sono all’altezza della lunga coda della diversità linguistica umana. Whisper supporta 99 lingue. Il sistema di Meta:
-
Supporta direttamente oltre 1.600 lingue
-
Generalizza a più di 5.400 lingue utilizzando l’apprendimento in contesto
-
Raggiunge tassi di errore di carattere (CER) inferiori al 10% nel 78% delle lingue supportate
Secondo il documento di ricerca di Meta, le lingue supportate includono più di 500 lingue che nessun modello ASR aveva mai coperto prima.
Questa espansione apre nuove possibilità per le comunità le cui lingue sono spesso escluse dagli strumenti digitali
Ecco una sezione di background rivista e ampliata che include il contesto più ampio della strategia AI 2025 di Meta, i cambiamenti di leadership e l’accettazione di Llama 4, completo di citazioni e collegamenti nel testo:
Background: revisione dell’IA di Meta e ritorno da Llama 4
Il lancio di Omnilingual ASR arriva in un punto cruciale nella strategia AI di Meta, dopo un anno di turbolenze organizzative, cambiamenti di leadership e implementazione disomogenea del prodotto.
Omnilingual ASR è il primo importante rilascio di un modello open source dal rilascio dell’ultimo importante modello linguistico di Meta, Llama 4. Rilasciato nell’aprile 2025 Il modello open source cinese ha ricevuto recensioni contrastanti e in definitiva negative, con un’adozione istituzionale carente rispetto ai suoi rivali.
Il fallimento ha spinto il fondatore e CEO di Meta Mark Zuckerberg a nominare Alexandr Wang, co-fondatore e precedente CEO del fornitore di dati AI Scale AI. Come Direttore dell’Intelligenza Artificialee partire per un viaggio ampia e costosa ondata di assunzioni Intelligenza artificiale scioccante e mondo degli affari Pacchetti retributivi strabilianti per i migliori ricercatori nel campo dell’intelligenza artificiale.
Al contrario, l’ASR omnilingue rappresenta un ripristino strategico e reputazionale. Riporta Meta in un’area in cui l’azienda è stata storicamente pioniera, l’intelligenza artificiale multilingue, e offre uno stack veramente estensibile e guidato dalla comunità che riduce al minimo le barriere all’ingresso.
Il sistema supporta più di 1.600 lingue ed è estensibile a più di 5.000 lingue attraverso l’apprendimento zero-shot in contesto, dimostrando ulteriormente la credibilità ingegneristica di Meta nella tecnologia linguistica.
Ancora più importante, lo fa attraverso una versione con licenza gratuita e autorizzata sotto Apache 2.0, con origine di set di dati trasparente e protocolli di formazione riproducibili.
Questo cambiamento è in linea con temi più ampi nella strategia 2025 di Meta. L’azienda ha riorientato la sua narrativa attorno alla sua visione di “superintelligenza personale” investendo massicciamente nelle infrastrutture (inclusa una versione di settembre di acceleratori di intelligenza artificiale personalizzati e stack di inferenza basati su Arm). fonte minimizzando i metadati a favore delle funzionalità fondamentali dell’intelligenza artificiale. Il ritorno ai dati sull’istruzione pubblica in Europa dopo una pausa normativa sottolinea anche l’intenzione di competere a livello globale nonostante il controllo della privacy fonte.
L’ASR multilingue, quindi, è più di un semplice rilascio di modello; È una mossa calcolata per riprendere il controllo della narrazione, dal lancio frammentato di Llama 4 a un contributo ad alta usabilità e basato sulla ricerca in linea con la strategia della piattaforma AI a lungo termine di Meta.
Raccolta di set di dati centrata sulla comunità
Per raggiungere questa scala, Meta ha collaborato con ricercatori e organizzazioni comunitarie in Africa, Asia e altrove per creare l’Omnilingual ASR Corpus, un set di dati di 3.350 ore in 348 lingue a scarse risorse. I contributori sono stati pagati da relatori locali e le registrazioni sono state raccolte in collaborazione con gruppi come:
-
Le prossime voci africane: Un consorzio sostenuto dalla Gates Foundation, che comprende l’Università di Maseno (Kenya), l’Università di Pretoria e Data Science Nigeria
-
La voce comune della Mozilla FoundationSupportato attraverso l’Open Multilingual Speech Fund
-
Lanfrica / NaijaVociGenerazione di dati per 11 lingue africane tra cui Igala, Serer e Urhobo
La raccolta dei dati si è concentrata sul parlato naturale e non scritto. Le domande sono state progettate per essere culturalmente rilevanti e aperte, ad esempio: “È meglio avere pochi amici intimi o molti conoscenti casuali? Perché?” Le trascrizioni utilizzavano sistemi di scrittura consolidati con garanzia di qualità coinvolta in ogni fase.
Considerazioni sulle prestazioni e sull’hardware
Il modello più grande della suite, omniASR_LLM_7B, richiede circa 17 GB di memoria GPU per l’inferenza, rendendolo adatto per l’implementazione su hardware di fascia alta. I modelli più piccoli (300M–1B) possono funzionare su dispositivi a basso consumo e fornire velocità di trascrizione in tempo reale.
I benchmark delle prestazioni mostrano ottimi risultati anche in scenari con risorse limitate:
-
CER <10% per il 95% delle lingue di origine alta e media
-
Il 36% delle lingue con poche risorse ha CER <10%
-
Robustezza in condizioni rumorose e in aree invisibili, soprattutto se messo a punto
Il sistema zero-shot omniASR_LLM_7B_ZS può trascrivere nuove lingue con una configurazione minima. Gli utenti forniscono diverse coppie audio-testo campione e il modello genera trascrizioni per nuove frasi nella stessa lingua.
Open Access e strumenti per sviluppatori
Tutti i modelli e i set di dati sono concessi in licenza secondo i termini consentiti:
-
Apache 2.0 per modelli e codice
-
CC-BY 4.0 per Corpus ASR multilingue su HuggingFace
L’installazione è supportata tramite PyPI e uv:
pip install omnilingual-asr
Meta fornisce inoltre:
-
Integrazione del set di dati HuggingFace
-
Linee di inferenza precostruite
-
Condizionamento del codice linguistico per una maggiore precisione
Gli sviluppatori possono visualizzare l’elenco completo delle lingue supportate utilizzando l’API:
from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs
print(len(supported_langs))
print(supported_langs)
Impatti più ampi
L’ASR multilingue adatta l’ambito della lingua nell’ASR da un elenco fisso. telaio espandibile. Fornisce:
-
Inclusione mirata alla comunità delle lingue sottorappresentate
-
Accesso digitale per le lingue parlate e in via di estinzione
-
Ricerca sulla tecnologia vocale in contesti linguisticamente diversi
Meta enfatizza le considerazioni etiche, soprattutto sostenendo la partecipazione open source e la collaborazione con le comunità di madrelingua.
“Nessun singolo modello può prevedere e includere tutte le lingue del mondo”, afferma il documento Omnilingual ASR, “ma Omnilingual ASR consente alle comunità di aumentare il riconoscimento con i propri dati”.
Accesso agli strumenti
Tutte le risorse sono ora disponibili su:
-
Codice + Modelli: github.com/facebookresearch/omnilingual-asr
-
set di dati: Huggingface.co/datasets/facebook/omnilingual-asr-corpus
-
articolo del blog: ai.meta.com/blog/omnilingual-asr
Cosa significa questo per le aziende?
Per gli sviluppatori aziendali che operano in mercati multilingue o internazionali, Omnilingual ASR riduce significativamente le barriere all’implementazione di sistemi di sintesi vocale in una gamma più ampia di clienti e aree geografiche.
Invece di fare affidamento su API ASR commerciali che supportano solo un insieme ristretto di linguaggi ad alto contenuto di risorse, i team possono integrare una pipeline open source che copre più di 1.600 lingue pronte all’uso, con la possibilità di espanderla ad altre migliaia attraverso l’apprendimento zero-shot.
Questa flessibilità è particolarmente preziosa per le organizzazioni che lavorano in settori quali l’assistenza clienti vocale, i servizi di trascrizione, l’accessibilità, l’istruzione o la tecnologia civica, dove la copertura della lingua locale può rappresentare un mandato competitivo o normativo. Poiché i modelli vengono rilasciati sotto la licenza permissiva Apache 2.0, le aziende possono perfezionarli, distribuirli o integrarli in sistemi personalizzati senza condizioni restrittive.
Ciò rappresenta anche uno spostamento nell’ambiente ASR da offerte centralizzate e migrate nel cloud a infrastrutture estensibili alla comunità. Rendendo il riconoscimento vocale multilingue più accessibile, personalizzabile e conveniente, Omnilingual ASR apre le porte a una nuova generazione di applicazioni vocali aziendali basate sull’impegno linguistico piuttosto che sulla limitazione linguistica.















