Home Politica Fermare il confronto in laboratorio: Incling Arena mostra come LLMS si comporta...

Politica

Fermare il confronto in laboratorio: Incling Arena mostra come LLMS si comporta in produzione

20 Agosto 2025

Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora

I modelli di test di riferimento sono diventati necessari per le aziende e hanno permesso loro di scegliere il tipo di prestazioni echeggiate con le loro esigenze. Tuttavia, non tutti i criteri vengono creati allo stesso modo e molti modelli di test si basano su cluster di dati statici o ambienti di test.

Ricercatori dell’IA Alibaba’s FormicaUn nuovo modello, che si concentra sulle prestazioni di un modello negli scenari della vita reale, ha proposto una nuova tabella e un criterio di leader del modello. Sostengono che gli LLM hanno bisogno di un consiglio leader che tenga conto del modo in cui le persone usano e di come le persone preferiscono le loro risposte rispetto alle loro capacità di conoscenza statica.

Uno cartaI ricercatori hanno costituito la base di Incling Arena, che elenca i modelli in base alle preferenze dell’utente.

“Al fine di affrontare queste lacune, raccomandiamo Inching Arena, una leadership vivente che colpisce le applicazioni supportate dall’intelligenza artificiale nel mondo reale con le ultime tecnologie LLMS e MLLMS.

Ai Stroops sui limiti di ridimensionamento

I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:

Trasformare l’energia in un vantaggio strategico

Architetto efficiente deduzione per guadagni di resa reale

Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili

Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo

Tra cui Arena si distingue tra gli altri dipinti di punteggi modello come MMLU e OpenLM a causa della direzione della vita reale e dei modelli di smistamento unici. Utilizza il metodo di modellazione di Bradley-Terry, simile a quello utilizzato da Chatbot Arena.

Comprese l’Arena funziona integrando il confronto nelle applicazioni AI per raccogliere cluster di dati e effettuare valutazioni umane. I ricercatori hanno affermato che il numero di applicazioni che lavorano con l’intelligenza artificiale integrata all’inizio è limitato, ma miriamo a stabilire un’alleanza aperta per espandere l’ecosistema. “

Finora, la maggior parte delle persone ha familiarità con le tabelle dei punteggi e i criteri che rivelano le prestazioni di ogni nuovo LLM pubblicato dalle aziende. Aperto– Google O Antropico. VentureBeat, come alcuni modelli, non è estraneo a queste tabelle di punteggio, Xai’s Gok 3, mostra le loro forze in cima al tavolo leader dell’arena di Chatbot. I ricercatori di AI coperti sostengono che la nuova tabella di leadership “consente alle valutazioni di riflettere scenari pratici, quindi le aziende hanno informazioni migliori sui modelli che intendono scegliere.

Utilizzando il metodo Bradley-Terry

Ispirato all’utilizzo del metodo Bradley-Terry, l’arena contenente utilizza il metodo di smistamento ELO dell’arena Chatbot contemporaneamente.

La maggior parte delle tabelle principali si basa sul metodo ELO per determinare le classifiche e le prestazioni. ELO si riferisce al grado di ELO negli scacchi, che determina l’abilità relativa dei giocatori. Sia Elo che Bradley-Terry sono probabili framework, ma i ricercatori hanno affermato che Bradley Terry ha prodotto valutazioni più stabili.

“Il modello Bradley Slivers offre un quadro solido per rimuovere le capacità nascoste dai risultati del confronto binario”, ha affermato. “Tuttavia, in scenari pratici, in particolare con molti e crescenti numero di modelli, l’aspettativa di doppi confronti completi diventa intensa. Ciò sottolinea una necessità critica di strategie di guerra intelligente che massimizzano il guadagno delle informazioni in un budget limitato.”

Al fine di rendere la classifica più efficiente di fronte a un gran numero di LLM, ci sono altri due componenti dell’arena di inclusione: meccanismo di corrispondenza del posizionamento e campionamento stretto. Il meccanismo di abbinamento del posizionamento stima il primo rango per nuovi modelli registrati per la tabella della leadership. Il campionamento di prossimità limita quindi questi confronti con i modelli nella stessa zona di fiducia.

Come lavorare

Allora come funziona?

Il frame arena inclusivo è integrato in applicazioni che funzionano con l’intelligenza artificiale. Attualmente, ci sono due applicazioni in Inclusion Arena: Charact Chat Applicazione Joyland and Education Communication Application T-Box. Quando gli utenti utilizzano le applicazioni, le richieste vengono inviate a più LLM dietro le quinte per le risposte. Più tardi, gli utenti non sanno quale modello è la risposta, ma quale risposta è la più popolare.

Il frame tiene conto della creazione di modelli doppi per il confronto delle preferenze dell’utente. L’algoritmo di Slipper Bradley viene quindi utilizzato per calcolare un punto per ciascun modello, che porta all’ultima tabella di leader.

Non contenere AI, 501.003 Confronti bilaterali fino a luglio 2025’A Dati limitati.

Secondo i primi esperimenti su Incling Arena, il sonetto Claude 3.7 di Antropico più prestazionale, DeepSeek V3-0324, Sonnet Claude 3.5, Deepseek V3 e Qwen Max-0125.

Naturalmente, secondo questo giornale, i dati ottenuti da due applicazioni con oltre 46.611 utenti attivi. I ricercatori hanno affermato di poter creare una leadership più robusta e sensibile con più dati.

Più tabelle di punteggio, più opzioni

L’aumento del numero di modelli rilasciati rende più difficile per le aziende scegliere quale LLMS inizierà a valutare. Le principali tabelle e criteri direttano i decisori tecnici diretti a modelli in grado di fornire le migliori prestazioni per le loro esigenze. Naturalmente, le organizzazioni dovrebbero quindi effettuare valutazioni interne per garantire che gli LLM siano efficaci per la loro applicazione.

Offre anche un’idea di una visione più ampia dell’LLM, che sottolinea quali modelli sono diventati competitivi rispetto ai loro coetanei. Criteri recenti come Premgibench 2 Allen InstituteCerco di allineare i modelli con situazioni di utilizzo della vita reale per le aziende.

Informazioni quotidiane sull’utilizzo del business con quotidianamente ecc.

Se vuoi impressionare il tuo capo, ci sono quotidianamente, ecc. Dai turni normativi alle distribuzioni pratiche, ti diamo ciò che le aziende fanno con l’intelligenza artificiale produttiva, in modo da poter condividere informazioni per il massimo YG.

Leggi la nostra politica sulla privacy

Grazie per aver iscritto. Dai un’occhiata di più ecc.

C’è stato un errore.

Collegamento alla fonte

Facebook
Twitter
Pinterest
WhatsApp

Previous articleAFL News 2025 | Nasiah Wanganeen-Milera, St Kilda Saints; Analisi di James Hird; Calcio classificato
Next articleTasters Fallout S2 ci porta a New Vegas

Emma De Angelis
http://massacarraranews.com

RELATED ARTICLES MORE FROM AUTHOR

Joseph Safra, banchiere di fiducia dotato di grandi ricchezze

Più di 200.000 calzini riscaldati “32 gradi” di Costco richiamati dopo segnalazioni di ustioni

Lo scienziato della Terra iraniano sfida l’Israele sionista, la sua affermazione è basata sul Corano

Ultimo post

Trump Turnberry è morto in 28 Open

27 Aprile 2026

I prezzi dell’argento scendono mentre i mercati tengono d’occhio la riunione...

27 Aprile 2026

Agente NICE: Donald Trump sostiene la ridenominazione della chiave agenzia governativa

27 Aprile 2026

I futures del Dow Jones scivolano mentre le tensioni in Iran...

27 Aprile 2026

Il produttore del gateway alla fine ha riconosciuto il problema, omettendo...

27 Aprile 2026

Le vendite di Resident Evil Requiem spingono Capcom ad aumentare le...

27 Aprile 2026

Solheim Cup – Colonna del Capitano di Anna Nordqvist: abiti per...

27 Aprile 2026

Il passo mancante tra promozione e profitto

27 Aprile 2026

Il cambio USD/JPY si indebolisce mentre lo yen si rafforza in...

27 Aprile 2026

Levitt ha informato i giornalisti dopo la cena di caccia

27 Aprile 2026

Il cambio USD/CAD scende ai minimi di sei settimane mentre il...

27 Aprile 2026

Allarme di emergenza dopo che Kansas City ha visto un mese...

27 Aprile 2026

Categoria
Notizia24319
Sport22938
Politica20275
Cultura e spettacolo17285
Finanza11139
Tecnologia7391
Attualità4205