Vorresti più informazioni intelligenti nella tua scatola in arrivo? Iscriviti solo alle nostre newsletter settimanali per ottenere la cosa importante per l’intelligenza artificiale aziendale, i dati e i leader della sicurezza. Iscriviti ora


Ricercatori Università della California, BerkeleyUniversità di Stanford E Verithtabricks Hanno introdotto un nuovo metodo di ottimizzazione dell’IA Tagliare Ciò funziona in modo significativamente migliore delle tecniche di apprendimento di rinforzo tradizionali (RL) per adattare i modelli di grandi dimensioni (LLM) a compiti speciali.

GEPA elimina il paradigma di apprendimento popolare attraverso migliaia di tentativi di prova ed errore diretti da semplici punti numerici. Invece, utilizza la comprensione del linguaggio di un LLM per riflettere le prestazioni, diagnosticare gli errori e ribadire le sue istruzioni. Oltre ad essere più accurati delle tecniche stabilite, GEPA è significativamente più efficiente e ottiene risultati superiori con meno lavori di prova fino a 35 volte.

Per i complessi agenti di intelligenza artificiale e flussi di attività, si trasforma in cicli di sviluppo più rapidi diretti, costi di calcolo significativamente più bassi e più prestazioni, applicazioni affidabili.

L’alto costo di ottimizzazione dei moderni sistemi di intelligenza artificiale

Le moderne pratiche di AI istituzionale sono raramente una singola chiamata a un LLM. Si tratta di flussi di lavoro generalmente complessi per eseguire attività sofisticate, inclusi flussi di lavoro complessi che catena strumenti esterni come più moduli LLM, database o interpreti di codice e attività sofisticate, tra cui la ricerca multi -passo e l’analisi dei dati.


Ai Stroops sui limiti di ridimensionamento

I limiti di potenza, l’aumento dei costi dei marcatori e le inferenze ritardi rimodellano AI aziendale. Unisciti alla nostra sala privata per scoprire come sono le migliori squadre:

  • Trasformare l’energia in un vantaggio strategico
  • Architetto efficiente deduzione per guadagni di resa reale
  • Aprire lo sblocco di un rendimento degli investimenti competitivi con sistemi AI sostenibili

Assicurati il tuo posto dove stare in futuro: https://bit.ly/4mwgngo


Un modo popolare per ottimizzare questi sistemi sono i metodi di apprendimento del rinforzoIl gruppo, che è una tecnica utilizzata nei modelli di ragionamento popolare, come la relativa ottimizzazione delle politiche (GRPO), DeepSeek-R1. Questo metodo tratta il sistema come una scatola nera; Funziona un’attività, riceve un semplice risultato del successo (un “premio scalare”, come il punteggio 24/10) e utilizza questo feedback per navigare lentamente i parametri del modello nella direzione corretta.

Il più grande svantaggio di RL è l’inefficienza esemplare. Al fine di apprendere efficacemente da questi punteggi numerici sparsi, i metodi RL richiedono decine di migliaia, anche centinaia di migliaia di studi di prova noti come “presentazione. Per qualsiasi applicazione aziendale nel mondo reale che contiene costose chiamate di veicoli (ad esempio, query API, compilation di codice) o utilizzando modelli speciali forti, questo processo è dannoso e costoso.

Come Lakshya, autore congiunto dell’articolo in UC Berkeley e lo studente di dottorato, per VentureBeat, questa complessità è un grande ostacolo per molte aziende. “Per molte squadre, RL non è pratico per molte squadre a causa del suo costo e complessità e i loro approcci di solito saranno ingegneristici solo a mano”, ha detto. Ha detto che GEPA è progettato per i team che devono ottimizzare i sistemi costruiti su modelli di alto livello regolati e consentire loro di migliorare le prestazioni senza gestire speciali cluster GPU.

I ricercatori inquadrano questa difficoltà come segue: “Come possiamo produrre un segnale di apprendimento massimo da ogni presentazione costosa per garantire che sistemi di intelligenza artificiale complessi e modulari siano effettivamente adattati in ambienti a basso contenuto di dati o budget?”

Un apprendimento ottimizzante con la lingua

GEPA Framework Fonte: arxiv

GEPA (Genetic-Pareto) è un rapido ottimizzatore che si occupa di questa difficoltà modificando i premi sparsi con un feedback in linguaggio naturale e ricco. Approfitta del fatto che un LLM può leggere e comprendere l’intera esecuzione di un sistema AI (inclusi passaggi di ragionamento, chiamate di veicolo e persino messaggi di errore). La metodologia di Gepa si basa su tre colonne di base.

Il primo è la “Evoluzione della richiesta genetica ğı in cui Gepa tratta una popolazione di domanda come un pool genico. Nuovo, potenzialmente fa” mutazioni “ripetendo per creare versioni migliori. Questa mutazione è un processo intelligente diretto dalla seconda colonna:” Riflessione con il feedback del linguaggio naturale “. Dopo alcune presentazioni, GEPA presenta un LLM a una pista di esecuzione completa (il sistema sta cercando di fare) e il risultato (corretto o sbagliato).

La terza colonna è la “scelta basata su Pareto IZ che fornisce una scoperta intelligente. Invece di concentrarsi sull’unica richiesta di performance che può portare a un’unica soluzione (” ottimista locale “), GEPA continua il suo staff. Creando un elenco delle migliori candidate, è più probabile che le migliori performance abbiano una migliore performance. Un’ampia varietà di input.

La scelta di un singolo miglior candidato (a sinistra) può causare l’intrappolamento dei modelli nel minimo locale, mentre la selezione di Pareto (a destra) può scoprire più opzioni e trovare soluzioni ottimali: arxiv

L’efficacia di questo processo dipende da ciò che i ricercatori chiamano “ingegneria di feedback. Agrawal spiega che la chiave è rivelare i dettagli ricchi e testuali che i sistemi hanno già prodotto ma spesso lanciano.” Le condutture tradizionali spesso nascono questo dettaglio con una singola ricompensa numerica, nascondendo il motivo per cui si sono verificati alcuni risultati “. Utilizzerà per diagnosticare il comportamento del sistema. “

Ad esempio, per un sistema di ricezione di documenti, questo significa elencare quali documenti vengono prelevati correttamente e quali vengono rapiti.

Gepa in azione

I ricercatori hanno valutato GEPA in quattro diversi compiti, tra cui hotpotqa e interrogatori (PUPA), che hanno preservato la privacy. Confrontando GEPA con GRPO a base di RL e Optimer MIPROV2 all’avanguardia, hanno utilizzato sia i modelli open source (QWEN3 8B) che registrati (Mini GPT-4.1).

In tutti i compiti, GEPA ha ottenuto risultati significativamente migliori di GRPO ed è stato lanciato fino a 35 volte meno, mentre ha ricevuto un punteggio più elevato fino al 19%. Agrawal ha dato un esempio concreto di questo guadagno di produttività: “Abbiamo usato GEPA per ottimizzare GRPO entro 24 ore da ~ 3 ore e 8 volte una riduzione dei tempi di sviluppo, ma abbiamo anche ottenuto prestazioni più elevate del 20%”, ha affermato. “Nel nostro test, l’ottimizzazione basata su RL dello stesso scenario costa circa $ 300 al tempo della GPU, mentre i risparmi GEPA nei nostri costi inferiori a $ 20 per risultati migliori.”

Gepa è ascoltato da altre linee di base nei confronti chiave: arxiv

Oltre alle prestazioni grezze, i ricercatori hanno scoperto che i sistemi OPTTENTI GEPA erano più affidabili quando affrontano dati nuovi e invisibili. Questo è misurato dal “gap di generalizzazione” (la differenza tra le prestazioni e i dati post -test nei dati educativi). Agrawal è che Gepa impara dal feedback più ricco. “Il divario di generalizzazione più piccolo di GEPA può essere causato dall’uso di un feedback del linguaggio naturale più ricco piuttosto che fare affidamento su un singolo premio scalare, ciò che ha fallito, ciò che ha fallito e basta fare affidamento su un singolo scalare.” Ciò può incoraggiare il sistema a sviluppare istruzioni e strategie basate su una più ampia comprensione del successo, piuttosto che imparare i modelli specifici per i dati educativi. ” Per le aziende, questa affidabilità avanzata significa applicazioni di intelligenza artificiale meno fragili e più adattabili nei ruoli dei clienti.

Un importante vantaggio pratico è che le richieste basate sull’istruzione di GEPA sono 9,2 volte più brevi delle esigenze di ottimizzatori come MIPROV2 e contenenti diversi colpi. Le richieste più brevi riducono i ritardi e riducono i costi dei modelli basati sull’API. Questo rende l’ultima applicazione più veloce ed economica in produzione.

L’articolo fornisce anche risultati promettenti per utilizzare GEPA come strategia di ricerca del “tempo di inferenza” e fornisce risultati promettenti per convertire l’intelligenza artificiale da un singolo generatore di annessori in un solvente problema ripetuto. Agrawal ha descritto uno scenario che GEPA può essere integrato nella pipeline CI/CD di un’azienda. Quando il nuovo codice viene impegnato, il GEPA può creare e sensibilizzare automaticamente più versioni ottimizzate, testare per le prestazioni e aprire il desiderio di disegnare con la migliore variante di prestazioni per la revisione degli ingegneri. “Ciò trasforma costantemente l’ottimizzazione in un processo automatico, specialmente soluzioni che corrispondono o superano le soluzioni che producono soluzioni”, ha affermato Agrawal. Nei suoi esperimenti sulla produzione del codice CUDA, questo approccio ha aumentato il 20% delle attività a livello di esperti rispetto allo 0% per un’iniziativa a fuoco singolo dal GPT-4O.

Gli autori dell’articolo ritengono che Gepa sia un passo fondamentale per un nuovo paradigma di sviluppo dell’IA. Tuttavia, oltre a creare un’intelligenza artificiale più umana, l’effetto più urgente potrebbe essere quello che può costruire sistemi ad alte prestazioni.

“Ci aspettiamo di fornire un cambiamento positivo nella costruzione del sistema di intelligenza artificiale di GEPA-l’ottimizzazione di tali sistemi, di solito competenza sul campo, ma può essere raggiunta da utenti finali che non hanno il tempo e la volontà di imparare funzionalità di RL complesse”, ha affermato. “Dà forza diretta alle parti interessate con la conoscenza sul campo del compito.”


Collegamento alla fonte