GEPA ottimizza LLMS senza costosi apprendimento di rinforzo

19 Agosto 2025

Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora

Ricercatori Università della California, Berkeley– Università di Stanford E Verithtabricks Hanno introdotto un nuovo metodo di ottimizzazione dell’IA Tagliare Ciò funziona in modo significativamente migliore delle tecniche di apprendimento di rinforzo tradizionali (RL) per adattare i modelli di grandi dimensioni (LLM) a compiti speciali.

GEPA elimina il paradigma di apprendimento popolare attraverso migliaia di tentativi di prova ed errore diretti da semplici punti numerici. Invece, utilizza la comprensione del linguaggio di un LLM per riflettere le prestazioni, diagnosticare gli errori e ribadire le sue istruzioni. Oltre ad essere più accurati delle tecniche stabilite, GEPA è significativamente più efficiente e ottiene risultati superiori con meno lavori di prova fino a 35 volte.

Per i complessi agenti di intelligenza artificiale e flussi di attività, si trasforma in cicli di sviluppo più rapidi diretti, costi di calcolo significativamente più bassi e più prestazioni, applicazioni affidabili.

L’alto costo di ottimizzazione dei moderni sistemi di intelligenza artificiale

Le moderne pratiche di AI istituzionale sono raramente una singola chiamata a un LLM. Si tratta di flussi di lavoro generalmente complessi per eseguire attività sofisticate, inclusi flussi di lavoro complessi che catena strumenti esterni come più moduli LLM, database o interpreti di codice e attività sofisticate, tra cui la ricerca multi -passo e l’analisi dei dati.

Ai Stroops sui limiti di ridimensionamento

I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:

Trasformare l’energia in un vantaggio strategico

Architetto efficiente deduzione per guadagni di resa reale

Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili

Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo

Un modo popolare per ottimizzare questi sistemi sono i metodi di apprendimento del rinforzoIl gruppo, che è una tecnica utilizzata nei modelli di ragionamento popolare, come la relativa ottimizzazione delle politiche (GRPO), DeepSeek-R1. Questo metodo tratta il sistema come una scatola nera; Funziona un’attività, riceve un semplice risultato del successo (un “premio scalare”, come il punteggio 24/10) e utilizza questo feedback per navigare lentamente i parametri del modello nella direzione corretta.

Il più grande svantaggio di RL è l’inefficienza esemplare. Al fine di apprendere efficacemente da questi punteggi numerici sparsi, i metodi RL richiedono decine di migliaia, anche centinaia di migliaia di studi di prova noti come “presentazione. Per qualsiasi applicazione aziendale nel mondo reale che contiene costose chiamate di veicoli (ad esempio, query API, compilation di codice) o utilizzando modelli speciali forti, questo processo è dannoso e costoso.

Come Lakshya, autore congiunto dell’articolo in UC Berkeley e lo studente di dottorato, per VentureBeat, questa complessità è un grande ostacolo per molte aziende. “Per molte squadre, RL non è pratico per molte squadre a causa del suo costo e complessità e i loro approcci di solito saranno ingegneristici solo a mano”, ha detto. Ha detto che GEPA è progettato per i team che devono ottimizzare i sistemi costruiti su modelli di alto livello regolati e consentire loro di migliorare le prestazioni senza gestire speciali cluster GPU.

I ricercatori inquadrano questa difficoltà come segue: “Come possiamo produrre un segnale di apprendimento massimo da ogni presentazione costosa per garantire che sistemi di intelligenza artificiale complessi e modulari siano effettivamente adattati in ambienti a basso contenuto di dati o budget?”

Un apprendimento ottimizzante con la lingua

GEPA Framework Fonte: arxiv

GEPA (Genetic-Pareto) è un rapido ottimizzatore che si occupa di questa difficoltà modificando i premi sparsi con un feedback in linguaggio naturale e ricco. Approfitta del fatto che un LLM può leggere e comprendere l’intera esecuzione di un sistema AI (inclusi passaggi di ragionamento, chiamate di veicolo e persino messaggi di errore). La metodologia di Gepa si basa su tre colonne di base.

Il primo è la “Evoluzione della richiesta genetica ğı in cui Gepa tratta una popolazione di domanda come un pool genico. Nuovo, potenzialmente fa” mutazioni “ripetendo per creare versioni migliori. Questa mutazione è un processo intelligente diretto dalla seconda colonna:” Riflessione con il feedback del linguaggio naturale “. Dopo alcune presentazioni, GEPA presenta un LLM a una pista di esecuzione completa (il sistema sta cercando di fare) e il risultato (corretto o sbagliato).

La terza colonna è la “scelta basata su Pareto IZ che fornisce una scoperta intelligente. Invece di concentrarsi sull’unica richiesta di performance che può portare a un’unica soluzione (” ottimista locale “), GEPA continua il suo staff. Creando un elenco delle migliori candidate, è più probabile che le migliori performance abbiano una migliore performance. Un’ampia varietà di input.

La scelta di un singolo miglior candidato (a sinistra) può causare l’intrappolamento dei modelli nel minimo locale, mentre la selezione di Pareto (a destra) può scoprire più opzioni e trovare soluzioni ottimali: arxiv

L’efficacia di questo processo dipende da ciò che i ricercatori chiamano “ingegneria di feedback. Agrawal spiega che la chiave è rivelare i dettagli ricchi e testuali che i sistemi hanno già prodotto ma spesso lanciano.” Le condutture tradizionali spesso nascono questo dettaglio con una singola ricompensa numerica, nascondendo il motivo per cui si sono verificati alcuni risultati “. Utilizzerà per diagnosticare il comportamento del sistema. “

Ad esempio, per un sistema di ricezione di documenti, questo significa elencare quali documenti vengono prelevati correttamente e quali vengono rapiti.

Gepa in azione

I ricercatori hanno valutato GEPA in quattro diversi compiti, tra cui hotpotqa e interrogatori (PUPA), che hanno preservato la privacy. Confrontando GEPA con GRPO a base di RL e Optimer MIPROV2 all’avanguardia, hanno utilizzato sia i modelli open source (QWEN3 8B) che registrati (Mini GPT-4.1).

In tutti i compiti, GEPA ha ottenuto risultati significativamente migliori di GRPO ed è stato lanciato fino a 35 volte meno, mentre ha ricevuto un punteggio più elevato fino al 19%. Agrawal ha dato un esempio concreto di questo guadagno di produttività: “Abbiamo usato GEPA per ottimizzare GRPO entro 24 ore da ~ 3 ore e 8 volte una riduzione dei tempi di sviluppo, ma abbiamo anche ottenuto prestazioni più elevate del 20%”, ha affermato. “Nel nostro test, l’ottimizzazione basata su RL dello stesso scenario costa circa $ 300 al tempo della GPU, mentre i risparmi GEPA nei nostri costi inferiori a $ 20 per risultati migliori.”

Gepa è ascoltato da altre linee di base nei confronti chiave: arxiv

Oltre alle prestazioni grezze, i ricercatori hanno scoperto che i sistemi OPTTENTI GEPA erano più affidabili quando affrontano dati nuovi e invisibili. Questo è misurato dal “gap di generalizzazione” (la differenza tra le prestazioni e i dati post -test nei dati educativi). Agrawal è che Gepa impara dal feedback più ricco. “Il divario di generalizzazione più piccolo di GEPA può essere causato dall’uso di un feedback del linguaggio naturale più ricco piuttosto che fare affidamento su un singolo premio scalare, ciò che ha fallito, ciò che ha fallito e basta fare affidamento su un singolo scalare.” Ciò può incoraggiare il sistema a sviluppare istruzioni e strategie basate su una più ampia comprensione del successo, piuttosto che imparare i modelli specifici per i dati educativi. ” Per le aziende, questa affidabilità avanzata significa applicazioni di intelligenza artificiale meno fragili e più adattabili nei ruoli dei clienti.

Un importante vantaggio pratico è che le richieste basate sull’istruzione di GEPA sono 9,2 volte più brevi delle esigenze di ottimizzatori come MIPROV2 e contenenti diversi colpi. Le richieste più brevi riducono i ritardi e riducono i costi dei modelli basati sull’API. Questo rende l’ultima applicazione più veloce ed economica in produzione.

L’articolo fornisce anche risultati promettenti per utilizzare GEPA come strategia di ricerca del “tempo di inferenza” e fornisce risultati promettenti per convertire l’intelligenza artificiale da un singolo generatore di annessori in un solvente problema ripetuto. Agrawal ha descritto uno scenario che GEPA può essere integrato nella pipeline CI/CD di un’azienda. Quando il nuovo codice viene impegnato, il GEPA può creare e sensibilizzare automaticamente più versioni ottimizzate, testare per le prestazioni e aprire il desiderio di disegnare con la migliore variante di prestazioni per la revisione degli ingegneri. “Ciò trasforma costantemente l’ottimizzazione in un processo automatico, specialmente soluzioni che corrispondono o superano le soluzioni che producono soluzioni”, ha affermato Agrawal. Nei suoi esperimenti sulla produzione del codice CUDA, questo approccio ha aumentato il 20% delle attività a livello di esperti rispetto allo 0% per un’iniziativa a fuoco singolo dal GPT-4O.

Gli autori dell’articolo ritengono che Gepa sia un passo fondamentale per un nuovo paradigma di sviluppo dell’IA. Tuttavia, oltre a creare un’intelligenza artificiale più umana, l’effetto più urgente potrebbe essere quello che può costruire sistemi ad alte prestazioni.

“Ci aspettiamo di fornire un cambiamento positivo nella costruzione del sistema di intelligenza artificiale di GEPA-l’ottimizzazione di tali sistemi, di solito competenza sul campo, ma può essere raggiunta da utenti finali che non hanno il tempo e la volontà di imparare funzionalità di RL complesse”, ha affermato. “Dà forza diretta alle parti interessate con la conoscenza sul campo del compito.”

Informazioni quotidiane sull’utilizzo del business con quotidianamente ecc.

Se vuoi impressionare il tuo capo, ci sono quotidianamente, ecc. Dai turni normativi alle distribuzioni pratiche, ti diamo ciò che le aziende fanno con l’intelligenza artificiale produttiva, in modo da poter condividere informazioni per il massimo YG.

Leggi la nostra politica sulla privacy

Grazie per aver iscritto. Dai un’occhiata di più ecc.

C’è stato un errore.

Collegamento alla fonte

Facebook
Twitter
Pinterest
WhatsApp

Previous articleSamsung Galaxy Watch 8 Classic vs Google Pixel Watch 4
Next articleTrump è popolare in cui i democratici tengono d’occhio un nuovo raccolto per aiutare la casa a vincere di nuovo la casa

Emma De Angelis
http://massacarraranews.com

RELATED ARTICLES MORE FROM AUTHOR

Gregorio XI, papa che salva la normalità aziendale

Da quando i giudici della Casa Bianca hanno preso di mira gli avvocati dell’immigrazione, oltre 100 immigrati sono stati licenziati dall’apertura di Trump

Una buona posizione del corpo mantiene la leadership

Ultimo post

Il presidente ucraino Zelenskiy esorta la vera pace, segnala il sostegno...

19 Agosto 2025

Il governo di Carlos Alcaraz Cincinnati è aperto dopo che il...

19 Agosto 2025

WTI-Prize recupera oltre $ 62,50 come commerciante per la riunione di...

19 Agosto 2025

Raiders Outlook Il suggerimento di Zeno Smith è stato un grosso...

19 Agosto 2025

Gregorio XI, papa che salva la normalità aziendale

19 Agosto 2025

Segretario di stato degli Stati Uniti Rubio per lavorare con gli...

19 Agosto 2025

Gli imballatori sono associati al commercio di mica potenziali insider NFL

19 Agosto 2025

Aiff sposta la Corte Suprema sulla urgente necessità di chiarezza sulla...

19 Agosto 2025

Da quando i giudici della Casa Bianca hanno preso di mira...

19 Agosto 2025

Come i social media illudono gli investitori di essere più bravi...

19 Agosto 2025

Il dollaro della Nuova Zelanda riscuote la forza oltre 0,5900 perché...

19 Agosto 2025

Gavin News 2028 Sergers nel sondaggio preliminare del presidente

19 Agosto 2025

Categoria
Notizia2976
Sport2378
Politica2203
Cultura e spettacolo1588
Tecnologia888
Attualità472
Finanza208