Home Politica Il benchmark MCP-University mostra che GPT-5 fallisce più della metà dei suoi...

Politica

Il benchmark MCP-University mostra che GPT-5 fallisce più della metà dei suoi compiti di regolamentazione nel mondo reale

22 Agosto 2025

114

Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora

L’adozione di standard di lavoro, come Model Context Protocol (MCP), può fornire informazioni sulle aziende su come agenti e modelli funzionano al di fuori dei confini basati sul muro. Tuttavia, molti criteri non possono catturare le interazioni della vita reale con MCP.

Salesforce Mentre AI Research ha interagito con LLM con server MCP nel mondo reale, sostenendo che la vita reale e le interazioni in tempo reale con le aziende dei veicoli disegneranno un quadro migliore, sviluppando un nuovo criterio open source chiamato MCP-Universse, che mira a monitorare LLMS. Nel primo test, modelli ApertoUltimamente GPT-5 pubblicato È forte, ma non si esibiscono ancora in scenari di vita reale.

“I criteri attuali si concentrano sugli aspetti isolati delle prestazioni LLM, come l’insegnamento, il ragionamento, il ragionamento o la chiamata funzionale, senza effettuare una valutazione completa di come i criteri attuali interagiscono con i server MCP nel mondo reale in diversi scenari”, ha affermato Salesforce. una carta.

MCP-Universse acquisisce prestazioni del modello attraverso l’uso del veicolo, le chiamate di veicoli multi-ritorno, i finestrini a lungo contesto e le grandi aree del veicolo. Si basa sui server MCP esistenti con accesso a risorse e ambienti di dati reali.

Ai Stroops sui limiti di ridimensionamento

I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:

Trasformare l’energia in un vantaggio strategico

Architetto efficiente deduzione per guadagni di resa reale

Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili

Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo

Junnan Li, direttore della ricerca AI di Salesforce, ha dichiarato a VentureBeat che molti modelli “stanno ancora incontrando restrizioni sui compiti di classe aziendale”.

Li ha dichiarato: “Due dei più grandi: difficoltà di contesto lunghe, i modelli possono perdere la scia di informazioni o combattere in modo coerente quando si tratta di input molto lunghi o complessi”, ha detto. “E sfide sconosciute dei veicoli, i modelli spesso non possono utilizzare veicoli o sistemi non familiari senza problemi che le persone possono adattarsi all’istante. Pertanto, con un singolo modello, è importante fare affidamento sulle esigenze del fai -da -te con un singolo modello, per non dare solo l’approccio fai -da -te, per combinare il contesto dei dati, per sviluppare il ragionamento sviluppato e la protezione della fiducia.

MCP-Universse partecipa ad altri criteri raccomandati con sede a MCPPer esempio MCP-Radar Dalla Massachusetts University Amrst e Xi’an Jiaotong University e anche Pechino Publications and Telecommunications University ‘ McPworld. È anche costruito su McPevals, che è anche pubblicato su Salesforce a luglio e si concentra principalmente sugli agenti. Li, MCP-Universse e McPevals, la più grande differenza, il secondo è valutare i compiti sintetici, ha detto.

Come lavorare

MCP-Universse valuta quanto bene ogni modello svolge una serie di compiti che imitano ciò che viene intrapreso dalle imprese. Salesforce ha dichiarato di aver progettato MCP-Universse per coprire le sei aree di base utilizzate dalle aziende: navigazione sulla posizione, gestione del magazzino, analisi finanziaria, progettazione 3D, automazione del browser e ricerca web. Ha raggiunto 11 server MCP per 231 compiti.

La navigazione della posizione si concentra sul ragionamento geografico e sulla conduzione di compiti spaziali. I ricercatori hanno toccato il server MCP di Google Maps per questo processo.

Il campo di gestione del magazzino esamina il processo di base del codice e si collega a GitHub MCP per rivelare strumenti di controllo della versione come la ricerca di repository, il monitoraggio dei problemi e la modifica del codice.

L’analisi finanziaria è collegata al server MCP di Yahoo Finance per valutare il ragionamento quantitativo e il processo decisionale del mercato finanziario.

Il design 3D valuta l’uso di strumenti di progettazione assistiti dal computer tramite Blender MCP.

L’automazione del browser dell’MCP del drammaturgo verifica l’interazione del browser.

L’area dell’effetto di ricerca Web utilizza Google Search MCP Server e MCP per verificare la “ricerca delle informazioni sul campo aperto” e configurata come attività più aperta.

Salesforce ha affermato che dovrebbe progettare nuovi compiti MCP che riflettono un uso reale. Per ogni nome di dominio, hanno costituito da quattro a cinque tipi di compiti che i ricercatori pensano che LLMS potesse facilmente completare. Ad esempio, i ricercatori hanno fissato un bersaglio per trovare l’obiettivo, che include la pianificazione del percorso per i modelli, identificare gli arresti ottimali e quindi trovare l’obiettivo.

Ogni modello viene valutato su come completano le attività. Li e il suo team hanno scelto di seguire un paradigma di valutazione basato sul dirigente anziché un sistema di prova più comune. I ricercatori, come giudice come giudice, “L’università MCP non è molto adatto alla nostra sceneggiatura, perché alcune attività sono progettate per utilizzare i dati in tempo reale, la conoscenza del giudice LLM è statica”.

I ricercatori di Salesforce hanno utilizzato tre tipi di valutatori: valutatori dinamici per le fluttuazioni come valutatori statici e prezzi di volo o problemi GITHUB per valutare l’accuratezza di agenti e modelli nel tempo, valutatori per vedere se seguono i requisiti di formato, i valutatori statici.

Li si concentra sulla creazione di impegni impegnativi del mondo reale con valutatori basati sui dirigenti che possono testare l’agente con stress in scenari complessi.

Anche i grandi modelli stanno avendo problemi

Per testare MCP-University, Salesforce ha valutato diversi modelli popolari registrati e open source. Questi includono GOK-4. Xai– Antropico‘S-Claude-4 domenica e Claude 3.7 domenica, GPT-5 di Oenai, O4-Mini, O3, GPT-4.1, GPT-OPP, Google‘S Gemini 2.5 Pro e Gemini 2.5 Fkash, GLM-4.5 Volere– InShot moonÈ who-k2, QwenEcoder Qwen3 e QWEN3-235B-A22B-ISTRIT-507 e DeepSeek-V3-0304 Deep -Week. Ogni modello testato aveva almeno 120b parametri.

Nel test, Salesforce ha scoperto che GPT-5 ha il miglior tasso di successo, in particolare per le attività di analisi finanziaria. GROK-4, sconfiggendo tutti i modelli per l’automazione del browser, e il sonetto Claude-4.0, sebbene non abbia pubblicato un numero di prestazioni più elevato rispetto a tutti i modelli che ha guardato, ha completato i primi tre. Tra i modelli open source, GLM-4.5 ha ottenuto il meglio.

Tuttavia, MCP-Universse ha dimostrato che i modelli, in particolare la navigazione della posizione, l’automazione del browser e l’efficienza per l’analisi finanziaria, sono stati difficili da affrontare con contesti lunghi, diminuendo in modo significativo. Non appena gli LLM incontrano strumenti sconosciuti, le loro prestazioni diminuiscono. LLMS ha mostrato difficoltà a completare più della metà delle attività delle imprese.

“Questi risultati sottolineano che i loro confini esistenti sono ancora inadeguati nell’esecuzione di compiti MCP in vari mondi reali. Pertanto, il nostro criterio dell’università MCP offre un letto di prova difficile e necessario per valutare le prestazioni dei criteri esistenti nelle aree in cui i criteri esistenti sono insufficienti”, ha affermato.

Li ha detto a VentureBeat che sperava di usare MCP-Universse per capire meglio dove aziende, rappresentanti e modelli hanno fallito nelle attività, in modo che possano migliorare l’applicazione di frame o strumenti MCP.

Informazioni quotidiane sull’utilizzo del business con quotidianamente ecc.

Se vuoi impressionare il tuo capo, ci sono quotidianamente, ecc. Dai turni normativi alle distribuzioni pratiche, ti diamo ciò che le aziende fanno con l’intelligenza artificiale produttiva, in modo da poter condividere informazioni per il massimo YG.

Leggi la nostra politica sulla privacy

Grazie per aver iscritto. Dai un’occhiata di più ecc.

C’è stato un errore.

Collegamento alla fonte

Facebook
Twitter
Pinterest
WhatsApp

Previous articleKounde supporta Lamine Yamal come Ballon D’Or Vincitore su Dembele
Next articleChargers Jim Harbah fornisce il maggiore aggiornamento nazista Harris

Emma De Angelis
http://massacarraranews.com

RELATED ARTICLES MORE FROM AUTHOR

Joseph Safra, banchiere di fiducia dotato di grandi ricchezze

Più di 200.000 calzini riscaldati “32 gradi” di Costco richiamati dopo segnalazioni di ustioni

Lo scienziato della Terra iraniano sfida l’Israele sionista, la sua affermazione è basata sul Corano

Ultimo post

Trump Turnberry è morto in 28 Open

27 Aprile 2026

I prezzi dell’argento scendono mentre i mercati tengono d’occhio la riunione...

27 Aprile 2026

Agente NICE: Donald Trump sostiene la ridenominazione della chiave agenzia governativa

27 Aprile 2026

I futures del Dow Jones scivolano mentre le tensioni in Iran...

27 Aprile 2026

Il produttore del gateway alla fine ha riconosciuto il problema, omettendo...

27 Aprile 2026

Le vendite di Resident Evil Requiem spingono Capcom ad aumentare le...

27 Aprile 2026

Solheim Cup – Colonna del Capitano di Anna Nordqvist: abiti per...

27 Aprile 2026

Il passo mancante tra promozione e profitto

27 Aprile 2026

Il cambio USD/JPY si indebolisce mentre lo yen si rafforza in...

27 Aprile 2026

Levitt ha informato i giornalisti dopo la cena di caccia

27 Aprile 2026

Il cambio USD/CAD scende ai minimi di sei settimane mentre il...

27 Aprile 2026

Allarme di emergenza dopo che Kansas City ha visto un mese...

27 Aprile 2026

Categoria
Notizia24319
Sport22938
Politica20275
Cultura e spettacolo17285
Finanza11139
Tecnologia7391
Attualità4205