Home Politica Meta ritorna all’intelligenza artificiale open source con modelli ASR multilingue in grado...

Politica

Meta ritorna all’intelligenza artificiale open source con modelli ASR multilingue in grado di trascrivere nativamente oltre 1.600 lingue

10 Novembre 2025

Meta ne ha rilasciato uno nuovo sistema di riconoscimento vocale automatico multilingue (ASR). Supporta più di 1.600 lingue; Fa impallidire il modello Whisper open source di OpenAI, che supporta solo 99 lingue.

L’architettura consente inoltre agli sviluppatori di estendere questo supporto ad altre migliaia di persone. Attraverso una funzionalità chiamata apprendimento in contesto zero-shot, gli utenti presentano diversi campioni audio e di testo accoppiati in una nuova lingua durante l’inferenza, consentendo al modello di trascrivere frasi aggiuntive in quella lingua senza alcuna riqualificazione.

In pratica, ciò espande il potenziale ambito a più di 5.400 lingue (più o meno tutte le lingue parlate con un alfabeto conosciuto).

Si tratta di un passaggio dalle capacità del modello statico a un quadro flessibile a cui le comunità possono adattarsi da sole. Quindi, mentre 1.600 lingue riflettono la portata della formazione formale, la cifra più grande rappresenta la capacità di generalizzazione su richiesta di Omnilingual ASR, rendendolo il sistema di riconoscimento vocale più estensibile mai rilasciato fino ad oggi.

Meglio ancora: è open source sotto una semplice licenza Apache 2.0 – non una licenza Llama restrittiva e semi-open source come le versioni precedenti dell’azienda; questa licenza è limitata all’utilizzo da parte di organizzazioni più grandi a meno che non paghino i costi di licenza; Ciò significa che ricercatori e sviluppatori possono immediatamente prelevarlo e applicarlo gratuitamente, senza alcuna restrizione, anche in progetti commerciali e di livello aziendale!

Pubblicato il 10 novembre Il sito web di Meta, Githubinsieme ad uno Area demo presso Hugging Face E documento tecnicoLa suite ASR multilingue di Meta include una famiglia di modelli di riconoscimento vocale, un modello di rappresentazione vocale multilingue da 7 miliardi di parametri e un enorme corpus vocale che copre più di 350 lingue precedentemente sottoservite.

Tutte le risorse sono disponibili gratuitamente con licenze aperte e i modelli supportano immediatamente la conversione da voce a testo.

“Con l’open source di questi modelli e set di dati, miriamo ad abbattere le barriere linguistiche, espandere l’accesso digitale e rafforzare le comunità in tutto il mondo”, ha affermato Meta. Account @AIatMeta su X

Progettato per la trascrizione da parlato a testo

L’ASR omnilingue è essenzialmente un sistema di sintesi vocale.

I modelli sono addestrati per convertire la lingua parlata in testo scritto, supportando applicazioni come assistenti vocali, strumenti di trascrizione, sottotitoli, digitalizzazione di archivi parlati e funzionalità di accessibilità per lingue con risorse limitate.

A differenza dei precedenti modelli ASR che richiedevano dati di addestramento etichettati estesi, Omnilingual ASR include una variante zero-shot.

Questa versione può trascrivere lingue mai viste prima, utilizzando solo pochi campioni di suoni accoppiati e testo corrispondente.

Ciò riduce significativamente la barriera all’aggiunta di lingue nuove o in via di estinzione, eliminando la necessità di corpora di grandi dimensioni o di riqualificazione.

Famiglia di modelli e progettazione tecnica

La suite Omnilingual ASR comprende più famiglie di modelli addestrati su oltre 4,3 milioni di ore di audio in più di 1.600 lingue:

Modelli wav2vec 2.0 per l’apprendimento della rappresentazione vocale autosupervisionato (parametri 300M–7B)
Modelli ASR basati su CTC per una trascrizione controllata efficiente.
Modelli LLM-ASR che combinano il codec vocale con il decodificatore di testo basato su Transformer per una trascrizione all’avanguardia
Modello LLM-ZeroShot ASR che consente l’adattamento del tempo di inferenza a lingue invisibili

Tutti i modelli seguono un design codificatore-decodificatore: l’audio grezzo viene trasformato in una rappresentazione indipendente dalla lingua, quindi decodificato in testo scritto.

Perché la scala è importante?

Sebbene Whisper e modelli simili abbiano capacità ASR avanzate per le lingue globali, non sono all’altezza della lunga coda della diversità linguistica umana. Whisper supporta 99 lingue. Il sistema di Meta:

Supporta direttamente oltre 1.600 lingue
Generalizza a più di 5.400 lingue utilizzando l’apprendimento in contesto
Raggiunge tassi di errore di carattere (CER) inferiori al 10% nel 78% delle lingue supportate

Secondo il documento di ricerca di Meta, le lingue supportate includono più di 500 lingue che nessun modello ASR aveva mai coperto prima.

Questa espansione apre nuove possibilità per le comunità le cui lingue sono spesso escluse dagli strumenti digitali

Ecco una sezione di background rivista e ampliata che include il contesto più ampio della strategia AI 2025 di Meta, i cambiamenti di leadership e l’accettazione di Llama 4, completo di citazioni e collegamenti nel testo:

Background: revisione dell’IA di Meta e ritorno da Llama 4

Il lancio di Omnilingual ASR arriva in un punto cruciale nella strategia AI di Meta, dopo un anno di turbolenze organizzative, cambiamenti di leadership e implementazione disomogenea del prodotto.

Omnilingual ASR è il primo importante rilascio di un modello open source dal rilascio dell’ultimo importante modello linguistico di Meta, Llama 4. Rilasciato nell’aprile 2025 Il modello open source cinese ha ricevuto recensioni contrastanti e in definitiva negative, con un’adozione istituzionale carente rispetto ai suoi rivali.

Il fallimento ha spinto il fondatore e CEO di Meta Mark Zuckerberg a nominare Alexandr Wang, co-fondatore e precedente CEO del fornitore di dati AI Scale AI. Come Direttore dell’Intelligenza Artificialee partire per un viaggio ampia e costosa ondata di assunzioni Intelligenza artificiale scioccante e mondo degli affari Pacchetti retributivi strabilianti per i migliori ricercatori nel campo dell’intelligenza artificiale.

Al contrario, l’ASR omnilingue rappresenta un ripristino strategico e reputazionale. Riporta Meta in un’area in cui l’azienda è stata storicamente pioniera, l’intelligenza artificiale multilingue, e offre uno stack veramente estensibile e guidato dalla comunità che riduce al minimo le barriere all’ingresso.

Il sistema supporta più di 1.600 lingue ed è estensibile a più di 5.000 lingue attraverso l’apprendimento zero-shot in contesto, dimostrando ulteriormente la credibilità ingegneristica di Meta nella tecnologia linguistica.

Ancora più importante, lo fa attraverso una versione con licenza gratuita e autorizzata sotto Apache 2.0, con origine di set di dati trasparente e protocolli di formazione riproducibili.

Questo cambiamento è in linea con temi più ampi nella strategia 2025 di Meta. L’azienda ha riorientato la sua narrativa attorno alla sua visione di “superintelligenza personale” investendo massicciamente nelle infrastrutture (inclusa una versione di settembre di acceleratori di intelligenza artificiale personalizzati e stack di inferenza basati su Arm). fonte minimizzando i metadati a favore delle funzionalità fondamentali dell’intelligenza artificiale. Il ritorno ai dati sull’istruzione pubblica in Europa dopo una pausa normativa sottolinea anche l’intenzione di competere a livello globale nonostante il controllo della privacy fonte.

L’ASR multilingue, quindi, è più di un semplice rilascio di modello; È una mossa calcolata per riprendere il controllo della narrazione, dal lancio frammentato di Llama 4 a un contributo ad alta usabilità e basato sulla ricerca in linea con la strategia della piattaforma AI a lungo termine di Meta.

Raccolta di set di dati centrata sulla comunità

Per raggiungere questa scala, Meta ha collaborato con ricercatori e organizzazioni comunitarie in Africa, Asia e altrove per creare l’Omnilingual ASR Corpus, un set di dati di 3.350 ore in 348 lingue a scarse risorse. I contributori sono stati pagati da relatori locali e le registrazioni sono state raccolte in collaborazione con gruppi come:

Le prossime voci africane: Un consorzio sostenuto dalla Gates Foundation, che comprende l’Università di Maseno (Kenya), l’Università di Pretoria e Data Science Nigeria
La voce comune della Mozilla FoundationSupportato attraverso l’Open Multilingual Speech Fund
Lanfrica / NaijaVociGenerazione di dati per 11 lingue africane tra cui Igala, Serer e Urhobo

La raccolta dei dati si è concentrata sul parlato naturale e non scritto. Le domande sono state progettate per essere culturalmente rilevanti e aperte, ad esempio: “È meglio avere pochi amici intimi o molti conoscenti casuali? Perché?” Le trascrizioni utilizzavano sistemi di scrittura consolidati con garanzia di qualità coinvolta in ogni fase.

Considerazioni sulle prestazioni e sull’hardware

Il modello più grande della suite, omniASR_LLM_7B, richiede circa 17 GB di memoria GPU per l’inferenza, rendendolo adatto per l’implementazione su hardware di fascia alta. I modelli più piccoli (300M–1B) possono funzionare su dispositivi a basso consumo e fornire velocità di trascrizione in tempo reale.

I benchmark delle prestazioni mostrano ottimi risultati anche in scenari con risorse limitate:

CER <10% per il 95% delle lingue di origine alta e media
Il 36% delle lingue con poche risorse ha CER <10%
Robustezza in condizioni rumorose e in aree invisibili, soprattutto se messo a punto

Il sistema zero-shot omniASR_LLM_7B_ZS può trascrivere nuove lingue con una configurazione minima. Gli utenti forniscono diverse coppie audio-testo campione e il modello genera trascrizioni per nuove frasi nella stessa lingua.

Open Access e strumenti per sviluppatori

Tutti i modelli e i set di dati sono concessi in licenza secondo i termini consentiti:

Apache 2.0 per modelli e codice
CC-BY 4.0 per Corpus ASR multilingue su HuggingFace

L’installazione è supportata tramite PyPI e uv:

pip install omnilingual-asr

Meta fornisce inoltre:

Integrazione del set di dati HuggingFace
Linee di inferenza precostruite
Condizionamento del codice linguistico per una maggiore precisione

Gli sviluppatori possono visualizzare l’elenco completo delle lingue supportate utilizzando l’API:

from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs

print(len(supported_langs)) print(supported_langs)

Impatti più ampi

L’ASR multilingue adatta l’ambito della lingua nell’ASR da un elenco fisso. telaio espandibile. Fornisce:

Inclusione mirata alla comunità delle lingue sottorappresentate
Accesso digitale per le lingue parlate e in via di estinzione
Ricerca sulla tecnologia vocale in contesti linguisticamente diversi

Meta enfatizza le considerazioni etiche, soprattutto sostenendo la partecipazione open source e la collaborazione con le comunità di madrelingua.

“Nessun singolo modello può prevedere e includere tutte le lingue del mondo”, afferma il documento Omnilingual ASR, “ma Omnilingual ASR consente alle comunità di aumentare il riconoscimento con i propri dati”.

Accesso agli strumenti

Tutte le risorse sono ora disponibili su:

Codice + Modelli: github.com/facebookresearch/omnilingual-asr
set di dati: Huggingface.co/datasets/facebook/omnilingual-asr-corpus
articolo del blog: ai.meta.com/blog/omnilingual-asr

Cosa significa questo per le aziende?

Per gli sviluppatori aziendali che operano in mercati multilingue o internazionali, Omnilingual ASR riduce significativamente le barriere all’implementazione di sistemi di sintesi vocale in una gamma più ampia di clienti e aree geografiche.

Invece di fare affidamento su API ASR commerciali che supportano solo un insieme ristretto di linguaggi ad alto contenuto di risorse, i team possono integrare una pipeline open source che copre più di 1.600 lingue pronte all’uso, con la possibilità di espanderla ad altre migliaia attraverso l’apprendimento zero-shot.

Questa flessibilità è particolarmente preziosa per le organizzazioni che lavorano in settori quali l’assistenza clienti vocale, i servizi di trascrizione, l’accessibilità, l’istruzione o la tecnologia civica, dove la copertura della lingua locale può rappresentare un mandato competitivo o normativo. Poiché i modelli vengono rilasciati sotto la licenza permissiva Apache 2.0, le aziende possono perfezionarli, distribuirli o integrarli in sistemi personalizzati senza condizioni restrittive.

Ciò rappresenta anche uno spostamento nell’ambiente ASR da offerte centralizzate e migrate nel cloud a infrastrutture estensibili alla comunità. Rendendo il riconoscimento vocale multilingue più accessibile, personalizzabile e conveniente, Omnilingual ASR apre le porte a una nuova generazione di applicazioni vocali aziendali basate sull’impegno linguistico piuttosto che sulla limitazione linguistica.

Collegamento alla fonte

Meta ritorna all’intelligenza artificiale open source con modelli ASR multilingue in grado di trascrivere nativamente oltre 1.600 lingue

Progettato per la trascrizione da parlato a testo

Famiglia di modelli e progettazione tecnica

Perché la scala è importante?

Background: revisione dell’IA di Meta e ritorno da Llama 4

Raccolta di set di dati centrata sulla comunità

Considerazioni sulle prestazioni e sull’hardware

Open Access e strumenti per sviluppatori

Impatti più ampi

Accesso agli strumenti

Cosa significa questo per le aziende?

Ultimo post

Trump Turnberry è morto in 28 Open

I prezzi dell’argento scendono mentre i mercati tengono d’occhio la riunione...

Agente NICE: Donald Trump sostiene la ridenominazione della chiave agenzia governativa

I futures del Dow Jones scivolano mentre le tensioni in Iran...

Il produttore del gateway alla fine ha riconosciuto il problema, omettendo...

Le vendite di Resident Evil Requiem spingono Capcom ad aumentare le...

Solheim Cup – Colonna del Capitano di Anna Nordqvist: abiti per...

Il passo mancante tra promozione e profitto

Il cambio USD/JPY si indebolisce mentre lo yen si rafforza in...

Levitt ha informato i giornalisti dopo la cena di caccia

Il cambio USD/CAD scende ai minimi di sei settimane mentre il...

Allarme di emergenza dopo che Kansas City ha visto un mese...

Categoria