Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora


I modelli di test di riferimento sono diventati necessari per le aziende e hanno permesso loro di scegliere il tipo di prestazioni echeggiate con le loro esigenze. Tuttavia, non tutti i criteri vengono creati allo stesso modo e molti modelli di test si basano su cluster di dati statici o ambienti di test.

Ricercatori dell’IA Alibaba’s FormicaUn nuovo modello, che si concentra sulle prestazioni di un modello negli scenari della vita reale, ha proposto una nuova tabella e un criterio di leader del modello. Sostengono che gli LLM hanno bisogno di un consiglio leader che tenga conto del modo in cui le persone usano e di come le persone preferiscono le loro risposte rispetto alle loro capacità di conoscenza statica.

Uno cartaI ricercatori hanno costituito la base di Incling Arena, che elenca i modelli in base alle preferenze dell’utente.

“Al fine di affrontare queste lacune, raccomandiamo Inching Arena, una leadership vivente che colpisce le applicazioni supportate dall’intelligenza artificiale nel mondo reale con le ultime tecnologie LLMS e MLLMS.


Ai Stroops sui limiti di ridimensionamento

I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:

  • Trasformare l’energia in un vantaggio strategico
  • Architetto efficiente deduzione per guadagni di resa reale
  • Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili

Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo


Tra cui Arena si distingue tra gli altri dipinti di punteggi modello come MMLU e OpenLM a causa della direzione della vita reale e dei modelli di smistamento unici. Utilizza il metodo di modellazione di Bradley-Terry, simile a quello utilizzato da Chatbot Arena.

Comprese l’Arena funziona integrando il confronto nelle applicazioni AI per raccogliere cluster di dati e effettuare valutazioni umane. I ricercatori hanno affermato che il numero di applicazioni che lavorano con l’intelligenza artificiale integrata all’inizio è limitato, ma miriamo a stabilire un’alleanza aperta per espandere l’ecosistema. “

Finora, la maggior parte delle persone ha familiarità con le tabelle dei punteggi e i criteri che rivelano le prestazioni di ogni nuovo LLM pubblicato dalle aziende. ApertoGoogle O Antropico. VentureBeat, come alcuni modelli, non è estraneo a queste tabelle di punteggio, Xai’s Gok 3, mostra le loro forze in cima al tavolo leader dell’arena di Chatbot. I ricercatori di AI coperti sostengono che la nuova tabella di leadership “consente alle valutazioni di riflettere scenari pratici, quindi le aziende hanno informazioni migliori sui modelli che intendono scegliere.

Utilizzando il metodo Bradley-Terry

Ispirato all’utilizzo del metodo Bradley-Terry, l’arena contenente utilizza il metodo di smistamento ELO dell’arena Chatbot contemporaneamente.

La maggior parte delle tabelle principali si basa sul metodo ELO per determinare le classifiche e le prestazioni. ELO si riferisce al grado di ELO negli scacchi, che determina l’abilità relativa dei giocatori. Sia Elo che Bradley-Terry sono probabili framework, ma i ricercatori hanno affermato che Bradley Terry ha prodotto valutazioni più stabili.

“Il modello Bradley Slivers offre un quadro solido per rimuovere le capacità nascoste dai risultati del confronto binario”, ha affermato. “Tuttavia, in scenari pratici, in particolare con molti e crescenti numero di modelli, l’aspettativa di doppi confronti completi diventa intensa. Ciò sottolinea una necessità critica di strategie di guerra intelligente che massimizzano il guadagno delle informazioni in un budget limitato.”

Al fine di rendere la classifica più efficiente di fronte a un gran numero di LLM, ci sono altri due componenti dell’arena di inclusione: meccanismo di corrispondenza del posizionamento e campionamento stretto. Il meccanismo di abbinamento del posizionamento stima il primo rango per nuovi modelli registrati per la tabella della leadership. Il campionamento di prossimità limita quindi questi confronti con i modelli nella stessa zona di fiducia.

Come lavorare

Allora come funziona?

Il frame arena inclusivo è integrato in applicazioni che funzionano con l’intelligenza artificiale. Attualmente, ci sono due applicazioni in Inclusion Arena: Charact Chat Applicazione Joyland and Education Communication Application T-Box. Quando gli utenti utilizzano le applicazioni, le richieste vengono inviate a più LLM dietro le quinte per le risposte. Più tardi, gli utenti non sanno quale modello è la risposta, ma quale risposta è la più popolare.

Il frame tiene conto della creazione di modelli doppi per il confronto delle preferenze dell’utente. L’algoritmo di Slipper Bradley viene quindi utilizzato per calcolare un punto per ciascun modello, che porta all’ultima tabella di leader.

Non contenere AI, 501.003 Confronti bilaterali fino a luglio 2025’A Dati limitati.

Secondo i primi esperimenti su Incling Arena, il sonetto Claude 3.7 di Antropico più prestazionale, DeepSeek V3-0324, Sonnet Claude 3.5, Deepseek V3 e Qwen Max-0125.

Naturalmente, secondo questo giornale, i dati ottenuti da due applicazioni con oltre 46.611 utenti attivi. I ricercatori hanno affermato di poter creare una leadership più robusta e sensibile con più dati.

Più tabelle di punteggio, più opzioni

L’aumento del numero di modelli rilasciati rende più difficile per le aziende scegliere quale LLMS inizierà a valutare. Le principali tabelle e criteri direttano i decisori tecnici diretti a modelli in grado di fornire le migliori prestazioni per le loro esigenze. Naturalmente, le organizzazioni dovrebbero quindi effettuare valutazioni interne per garantire che gli LLM siano efficaci per la loro applicazione.

Offre anche un’idea di una visione più ampia dell’LLM, che sottolinea quali modelli sono diventati competitivi rispetto ai loro coetanei. Criteri recenti come Premgibench 2 Allen InstituteCerco di allineare i modelli con situazioni di utilizzo della vita reale per le aziende.


Collegamento alla fonte