Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora
Aperto Aggiunge un mercato audio AI sempre più competitivo per le aziende. Nuovo modello, GPT-RealtimeSegue queste istruzioni complesse e con suoni “più naturali e impressionanti”.
Mentre l’IA Voice continua a crescere e i clienti trovano situazioni come le chiamate del servizio clienti o la traduzione in tempo reale, il mercato si sta riscaldando per suoni di AI vocali realistici che offrono sicurezza delle lezioni aziendali. Openai afferma che il nuovo modello fornisce un suono più simile all’uomo, ma deve comunque competere contro aziende come ElevenLabs.
Il modello sarà disponibile nell’API reale, che la società generalmente ci rende utilizzabili. Oltre al GPT-Realtime, Open hal ha rilasciato nuove voci nell’API, chiamata Cedar e Marin, e ha aggiornato altri suoni per funzionare con l’ultimo modello.
Openai ha dichiarato in una trasmissione in diretta che lavora con i suoi clienti che creano applicazioni vocali per educare il GPT-REALTime e lo hanno reso compatibile con Evals, che hanno accuratamente costruito il modello su scenari del mondo reale come l’assistenza clienti e le lezioni accademiche ”.
Ai Stroops sui limiti di ridimensionamento
I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:
- Trasformare l’energia in un vantaggio strategico
- Architetto efficiente deduzione per guadagni di resa reale
- Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili
Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo
La società ha rivelato la capacità del modello di creare suoni emotivi e naturali compatibili con il modo in cui gli sviluppatori sono costruiti con la tecnologia.
Modelli di condizione di conversazione
Il modello funziona all’interno del quadro del discorso vocale e gli consente di comprendere le richieste verbali e rispondere alla voce. I modelli di discorso vocale sono ideali per le risposte in tempo reale quando una persona che è in genere un cliente interagisce con un’applicazione.
Ad esempio, un cliente desidera restituire alcuni prodotti e chiama una piattaforma di servizio clienti. Potrebbero parlare con un assistente solido AI che risponde a domande e richieste come se stessero parlando con una persona.
In uno streaming live, clienti Openai T-mobile Ha mostrato una voce AI che aiuta le persone a trovare nuovi telefoni. Un altro cliente, piattaforma di ricerca immobiliare ZillowHa esposto un agente per aiutarlo a restringere da un quartiere per trovare un posto perfetto.
Openi, Gpt-Realtime’ın “Modello audio più avanzato e pronto”, ha detto. Come altri modelli sonori, può cambiare lingue nel mezzo della frase. Tuttavia, i ricercatori di Openai hanno affermato che GPT-Realtime potrebbe seguire istruzioni più complesse come “parlare con l’accento francese”.
Tuttavia, GPT-RealTime affronta la concorrenza di altri modelli che molti marchi già usano. Elevenlabs Il discorso fatto a maggio è stato pubblicato in AI 2.0. Forte L’intelligenza artificiale collabora con franchisee di fast food per un driver audio. Startup empatico di AI Cutter Ha lanciato il modello EVI 3, che consente agli utenti di creare versioni AI delle loro voci.
Man mano che le aziende scoprono varie situazioni di utilizzo per la voce AI, i fornitori di modelli più generali offrono LLM multimodali vengono presentati per se stessi. Fattura Ha rilasciato il nuovo modello Voxstral e ha detto che avrebbe funzionato bene con la traduzione reale. Google NotBeblm, che trasforma le note di ricerca in un podcast, migliora le capacità solide con una funzione sonora e guadagna popolarità.
Segui le istruzioni migliori
Openai ha affermato che GPT-Realtime è più intelligente e compreso meglio il suono indigeno, inclusa la capacità di catturare suggerimenti non verbali come sorrisi o sospiri.
Utilizzando la revisione audio Big Bench, il confronto ha mostrato il punteggio di precisione dell’82,8% rispetto al modello precedente, che ha ottenuto un punteggio del 65,6%. Openai non ha fornito numeri che hanno testato GPT-Realtime contro i modelli dei suoi concorrenti.
Openi si è concentrato sul miglioramento delle capacità di tracciamento delle istruzioni del modello e ha permesso al modello di adattarsi in modo più efficace alle istruzioni. Il nuovo modello ottiene il 30,5% sul criterio audio multi -llenge. Gli ingegneri hanno anche cercato una funzione per GPT-Realtime per accedere ai veicoli giusti.
Aggiornamenti API reali -time
Openai ha aggiunto alcune nuove funzionalità ad Openi, per supportare il nuovo modello e per migliorare il modo in cui le aziende integrano le funzionalità AI reali nelle loro applicazioni.
Ora può supportare MCP e riconoscere gli input di immagini e consentire agli utenti di informarci ciò che vedono in tempo reale. Questa è una caratteristica che è stata ampiamente enfatizzata durante il progetto di Google dell’anno scorso durante la presentazione di Astra.
L’API reale -time può anche elaborare il protocollo di avvio della sessione (SIP). SIP collega applicazioni a telefoni come la rete telefonica generale o i telefoni da tavolo e apre più esempi di utilizzo del centro di comunicazione. Gli utenti possono anche salvare e riutilizzare le richieste nell’API.
Finora, le persone sono influenzate dal modello, ma questi sono ancora i primi test di un modello recentemente rilasciato.
Openi ha ridotto i prezzi per GPT-Realtime al 20% per milione di monete di input sonore e $ 64 per monete di uscita audio.
Collegamento alla fonte