Un nuovo quadro Università di Stanford E SambaNova Affronta una sfida fondamentale nella creazione di agenti AI robusti: l’ingegneria del contesto. nel nome Ingegneria del contesto dell’agenzia (ACE), il framework popola e modifica automaticamente la finestra di contesto delle applicazioni LLM (Large Language Model) trattandole come un “playbook in evoluzione” che crea e perfeziona le strategie man mano che l’agente acquisisce esperienza nel suo ambiente.
ACE è progettato per superare i limiti fondamentali di altri framework di ingegneria del contesto e impedire che il contesto del modello si degradi man mano che raccoglie più informazioni. Gli esperimenti dimostrano che ACE funziona sia per ottimizzare i prompt del sistema che per gestire la memoria di un agente, surclassando altri metodi ed essendo anche significativamente più efficiente.
La sfida dell’ingegneria del contesto
Le applicazioni di intelligenza artificiale avanzata che utilizzano Master sono in gran parte "adattamento al contesto," o ingegneria del contesto per dirigere il loro comportamento. Gli sviluppatori utilizzano Master invece di processi costosi come la riqualificazione o la messa a punto del modello. capacità di apprendimento in contesto dirigere il comportamento sostituendo le richieste di input con istruzioni specifiche, passaggi di ragionamento o informazioni specifiche del dominio. Queste informazioni aggiuntive vengono spesso ottenute dall’agente che interagisce con il suo ambiente e raccoglie nuovi dati ed esperienze. L’obiettivo principale dell’ingegneria del contesto è organizzare queste nuove informazioni in modo da migliorare le prestazioni del modello ed evitare confusione. Questo approccio sta diventando un paradigma centrale per la creazione di sistemi di intelligenza artificiale capaci, scalabili e auto-potenzianti.
L’ingegneria del contesto presenta numerosi vantaggi per le applicazioni aziendali. I contesti possono essere interpretati sia per gli utenti che per gli sviluppatori, aggiornati con nuove informazioni in fase di esecuzione e condivisi tra diversi modelli. L’ingegneria del contesto trae vantaggio anche dai continui progressi hardware e software. finestre di contesto in crescita Tecniche di inferenza padroneggiate ed efficaci come il prompt e la memorizzazione nella cache del contesto.
Esistono diverse tecniche di ingegneria automatica del contesto, ma la maggior parte di esse deve affrontare due limitazioni fondamentali. Il primo di questi è il “brevity bias”, in cui i metodi di ottimizzazione rapida tendono a favorire istruzioni brevi e generali rispetto a istruzioni complete e dettagliate. Ciò può indebolire le prestazioni in aree complesse.
Il secondo e più serio problema è "collasso del contesto." Quando un Master ha il compito di riscrivere più e più volte tutti i contenuti accumulati, potrebbe sperimentare una forma di amnesia digitale.
“Ciò che chiamiamo ‘collasso del contesto’ si verifica quando un’intelligenza artificiale tenta di riscrivere o comprimere tutto ciò che ha imparato in un’unica nuova versione del suo prompt o della sua memoria”, hanno scritto i ricercatori in commenti scritti a VentureBeat. “Nel corso del tempo, questo processo di riscrittura cancella dettagli importanti, come sovrascrivere un documento più e più volte e perdere note importanti. Nei sistemi rivolti al cliente, ciò può significare che un agente dell’assistenza perde improvvisamente consapevolezza delle interazioni passate… con conseguente comportamento irregolare o incoerente.”
I ricercatori sostengono che “i contesti dovrebbero funzionare non come brevi riassunti ma come manuali completi e in evoluzione, dettagliati, esaurienti e ricchi di informazioni rilevanti per il dominio”. Questo approccio si basa sulla potenza del moderno MA, che può analizzare efficacemente l’interesse da contesti lunghi e dettagliati.
Come funziona l’ingegneria del contesto dell’agenzia (ACE)?
ACE è un framework per l’adattamento completo al contesto progettato per entrambe le attività offline. ottimizzazione tempestiva del sistemae scenari online come aggiornamenti della memoria in tempo reale per gli agenti. Invece di comprimere le informazioni, ACE tratta il contesto come un playbook dinamico che aggrega e organizza le strategie nel tempo.
Il framework divide il lavoro in tre ruoli specializzati: Generatore, Riflettore e Curatore. Secondo l’articolo, questo design modulare si ispira a “come le persone imparano sperimentando, riflettendo e rafforzandosi, evitando il collo di bottiglia di sovraccaricare tutte le responsabilità su un unico modello”.
Il flusso di lavoro inizia con il Generatore, che genera percorsi di ragionamento per le richieste di input, evidenziando sia le strategie efficaci che gli errori comuni. Reflector analizza quindi questi percorsi per estrarre lezioni importanti. Infine, il curatore sintetizza queste lezioni in aggiornamenti compatti e le integra nel playbook esistente.
Per evitare il collasso del contesto e la distorsione della brevità, ACE incorpora due principi di progettazione chiave. Innanzitutto, utilizza aggiornamenti incrementali. Il contesto è rappresentato come una raccolta di elementi strutturati e dettagliati anziché come un singolo blocco di testo. Ciò consente ad ACE di apportare modifiche granulari e recuperare le informazioni più rilevanti senza riscrivere l’intero contesto.
In secondo luogo, ACE utilizza un meccanismo di “crescita ed evoluzione”. Man mano che vengono raccolte nuove esperienze, nuovi punti elenco vengono aggiunti al playbook e quelli esistenti vengono aggiornati. La fase di deduplicazione garantisce che il contesto rimanga completo ma pertinente e compatto nel tempo rimuovendo regolarmente le voci non necessarie.
ACE in azione
I ricercatori hanno valutato ACE su due tipi di attività che sfruttano il contesto in evoluzione: benchmark di broker che richiedono ragionamenti e utilizzo di strumenti sofisticati e benchmark di analisi finanziaria specifici del dominio che richiedono conoscenze specializzate. Per i settori ad alto rischio come quello finanziario, i vantaggi vanno oltre la pura performance. Come affermano i ricercatori, il quadro è “molto più trasparente: un responsabile della conformità può letteralmente leggere ciò che l’intelligenza artificiale ha appreso, perché sono archiviati in testo leggibile dall’uomo anziché nascosti in miliardi di parametri”.
I risultati hanno mostrato che ACE ha costantemente sovraperformato benchmark potenti come: GEPA e l’apprendimento classico in contesto, che ha prodotto un miglioramento medio delle prestazioni del 10,6% sulle attività degli agenti e dell’8,6% sui benchmark specifici del dominio sia in ambienti offline che online.
Fondamentalmente, ACE può creare contesti efficaci analizzando il feedback delle sue azioni e dell’ambiente, anziché aver bisogno di dati etichettati manualmente. I ricercatori ritengono che questa capacità sia a "Componente essenziale per LLM e agenti che si auto-migliorano." pubblico Mondo delle applicazioni Il benchmark progettato per valutare i sistemi con agenti utilizza un agente che utilizza ACE con un modello open source più piccolo (DeepSeek-V3.1) ha eguagliato la sua prestazione migliore, Agente supportato da GPT-4.1 lo ha superato in media e nel set di test più difficile.
Importante per le imprese il servizio d’asporto. “Ciò significa che le aziende non devono dipendere da enormi modelli proprietari per rimanere competitive”, ha affermato il gruppo di ricerca. “Possono implementare modelli locali, proteggere i dati sensibili e ottenere risultati di prim’ordine migliorando continuamente il contesto anziché riqualificare i pesi”.
Oltre alla precisione, ACE ha dimostrato di essere estremamente efficiente. Si adatta alle nuove attività con una latenza media inferiore dell’86,9% rispetto ai metodi esistenti e richiede meno passaggi e token. I ricercatori notano che questa efficienza dimostra che “uno sviluppo personale scalabile può essere raggiunto con maggiore precisione e costi inferiori”.
Per le aziende preoccupate per i costi di inferenza, i ricercatori notano che i contesti più lunghi prodotti da ACE non si traducono in costi proporzionalmente più elevati. Le moderne infrastrutture di servizio sono sempre più ottimizzate per carichi di lavoro a lungo contesto con tecniche come il riutilizzo, la compressione e l’offload della cache KV, che ammortizzano il costo dell’elaborazione estesa del contesto.
In definitiva, ACE punta a un futuro in cui i sistemi di intelligenza artificiale sono dinamici e in continua evoluzione. "Oggi, solo gli ingegneri dell’intelligenza artificiale possono aggiornare i modelli, ma l’ingegneria del contesto apre la porta agli esperti del settore (avvocati, analisti, medici) per modellare direttamente ciò che l’intelligenza artificiale conosce curando il playbook contestuale." hanno detto i ricercatori. Ciò rende anche la gestione più pratica. "”L’apprendimento selettivo diventa molto più trattabile: se le informazioni sono obsolete o giuridicamente sensibili, possono semplicemente essere rimosse o modificate dal contesto senza riqualificare il modello.”
