Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora


L’adozione di standard di lavoro, come Model Context Protocol (MCP), può fornire informazioni sulle aziende su come agenti e modelli funzionano al di fuori dei confini basati sul muro. Tuttavia, molti criteri non possono catturare le interazioni della vita reale con MCP.

Salesforce Mentre AI Research ha interagito con LLM con server MCP nel mondo reale, sostenendo che la vita reale e le interazioni in tempo reale con le aziende dei veicoli disegneranno un quadro migliore, sviluppando un nuovo criterio open source chiamato MCP-Universse, che mira a monitorare LLMS. Nel primo test, modelli ApertoUltimamente GPT-5 pubblicato È forte, ma non si esibiscono ancora in scenari di vita reale.

“I criteri attuali si concentrano sugli aspetti isolati delle prestazioni LLM, come l’insegnamento, il ragionamento, il ragionamento o la chiamata funzionale, senza effettuare una valutazione completa di come i criteri attuali interagiscono con i server MCP nel mondo reale in diversi scenari”, ha affermato Salesforce. una carta.

MCP-Universse acquisisce prestazioni del modello attraverso l’uso del veicolo, le chiamate di veicoli multi-ritorno, i finestrini a lungo contesto e le grandi aree del veicolo. Si basa sui server MCP esistenti con accesso a risorse e ambienti di dati reali.


Ai Stroops sui limiti di ridimensionamento

I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:

  • Trasformare l’energia in un vantaggio strategico
  • Architetto efficiente deduzione per guadagni di resa reale
  • Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili

Assicurati il ​​tuo posto dove stare in futuro: https://bit.ly/4mwgngo


Junnan Li, direttore della ricerca AI di Salesforce, ha dichiarato a VentureBeat che molti modelli “stanno ancora incontrando restrizioni sui compiti di classe aziendale”.

Li ha dichiarato: “Due dei più grandi: difficoltà di contesto lunghe, i modelli possono perdere la scia di informazioni o combattere in modo coerente quando si tratta di input molto lunghi o complessi”, ha detto. “E sfide sconosciute dei veicoli, i modelli spesso non possono utilizzare veicoli o sistemi non familiari senza problemi che le persone possono adattarsi all’istante. Pertanto, con un singolo modello, è importante fare affidamento sulle esigenze del fai -da -te con un singolo modello, per non dare solo l’approccio fai -da -te, per combinare il contesto dei dati, per sviluppare il ragionamento sviluppato e la protezione della fiducia.

MCP-Universse partecipa ad altri criteri raccomandati con sede a MCPPer esempio MCP-Radar Dalla Massachusetts University Amrst e Xi’an Jiaotong University e anche Pechino Publications and Telecommunications University ‘ McPworld. È anche costruito su McPevals, che è anche pubblicato su Salesforce a luglio e si concentra principalmente sugli agenti. Li, MCP-Universse e McPevals, la più grande differenza, il secondo è valutare i compiti sintetici, ha detto.

Come lavorare

MCP-Universse valuta quanto bene ogni modello svolge una serie di compiti che imitano ciò che viene intrapreso dalle imprese. Salesforce ha dichiarato di aver progettato MCP-Universse per coprire le sei aree di base utilizzate dalle aziende: navigazione sulla posizione, gestione del magazzino, analisi finanziaria, progettazione 3D, automazione del browser e ricerca web. Ha raggiunto 11 server MCP per 231 compiti.

  • La navigazione della posizione si concentra sul ragionamento geografico e sulla conduzione di compiti spaziali. I ricercatori hanno toccato il server MCP di Google Maps per questo processo.
  • Il campo di gestione del magazzino esamina il processo di base del codice e si collega a GitHub MCP per rivelare strumenti di controllo della versione come la ricerca di repository, il monitoraggio dei problemi e la modifica del codice.
  • L’analisi finanziaria è collegata al server MCP di Yahoo Finance per valutare il ragionamento quantitativo e il processo decisionale del mercato finanziario.
  • Il design 3D valuta l’uso di strumenti di progettazione assistiti dal computer tramite Blender MCP.
  • L’automazione del browser dell’MCP del drammaturgo verifica l’interazione del browser.
  • L’area dell’effetto di ricerca Web utilizza Google Search MCP Server e MCP per verificare la “ricerca delle informazioni sul campo aperto” e configurata come attività più aperta.

Salesforce ha affermato che dovrebbe progettare nuovi compiti MCP che riflettono un uso reale. Per ogni nome di dominio, hanno costituito da quattro a cinque tipi di compiti che i ricercatori pensano che LLMS potesse facilmente completare. Ad esempio, i ricercatori hanno fissato un bersaglio per trovare l’obiettivo, che include la pianificazione del percorso per i modelli, identificare gli arresti ottimali e quindi trovare l’obiettivo.

Ogni modello viene valutato su come completano le attività. Li e il suo team hanno scelto di seguire un paradigma di valutazione basato sul dirigente anziché un sistema di prova più comune. I ricercatori, come giudice come giudice, “L’università MCP non è molto adatto alla nostra sceneggiatura, perché alcune attività sono progettate per utilizzare i dati in tempo reale, la conoscenza del giudice LLM è statica”.

I ricercatori di Salesforce hanno utilizzato tre tipi di valutatori: valutatori dinamici per le fluttuazioni come valutatori statici e prezzi di volo o problemi GITHUB per valutare l’accuratezza di agenti e modelli nel tempo, valutatori per vedere se seguono i requisiti di formato, i valutatori statici.

Li si concentra sulla creazione di impegni impegnativi del mondo reale con valutatori basati sui dirigenti che possono testare l’agente con stress in scenari complessi.

Anche i grandi modelli stanno avendo problemi

Per testare MCP-University, Salesforce ha valutato diversi modelli popolari registrati e open source. Questi includono GOK-4. XaiAntropico‘S-Claude-4 domenica e Claude 3.7 domenica, GPT-5 di Oenai, O4-Mini, O3, GPT-4.1, GPT-OPP, Google‘S Gemini 2.5 Pro e Gemini 2.5 Fkash, GLM-4.5 VolereInShot moonÈ who-k2, QwenEcoder Qwen3 e QWEN3-235B-A22B-ISTRIT-507 e DeepSeek-V3-0304 Deep -Week. Ogni modello testato aveva almeno 120b parametri.

Nel test, Salesforce ha scoperto che GPT-5 ha il miglior tasso di successo, in particolare per le attività di analisi finanziaria. GROK-4, sconfiggendo tutti i modelli per l’automazione del browser, e il sonetto Claude-4.0, sebbene non abbia pubblicato un numero di prestazioni più elevato rispetto a tutti i modelli che ha guardato, ha completato i primi tre. Tra i modelli open source, GLM-4.5 ha ottenuto il meglio.

Tuttavia, MCP-Universse ha dimostrato che i modelli, in particolare la navigazione della posizione, l’automazione del browser e l’efficienza per l’analisi finanziaria, sono stati difficili da affrontare con contesti lunghi, diminuendo in modo significativo. Non appena gli LLM incontrano strumenti sconosciuti, le loro prestazioni diminuiscono. LLMS ha mostrato difficoltà a completare più della metà delle attività delle imprese.

“Questi risultati sottolineano che i loro confini esistenti sono ancora inadeguati nell’esecuzione di compiti MCP in vari mondi reali. Pertanto, il nostro criterio dell’università MCP offre un letto di prova difficile e necessario per valutare le prestazioni dei criteri esistenti nelle aree in cui i criteri esistenti sono insufficienti”, ha affermato.

Li ha detto a VentureBeat che sperava di usare MCP-Universse per capire meglio dove aziende, rappresentanti e modelli hanno fallito nelle attività, in modo che possano migliorare l’applicazione di frame o strumenti MCP.


Collegamento alla fonte