Man mano che l’ecosistema di strumenti e framework intermediari cresce rapidamente in termini di dimensioni, diventa sempre più difficile orientarsi tra le numerose opzioni per la creazione di sistemi di intelligenza artificiale, lasciando gli sviluppatori confusi e paralizzati nella scelta degli strumenti e dei modelli giusti per le loro applicazioni.
Uno nuovo studioRicercatori provenienti da più istituzioni forniscono un quadro completo per svelare questa complessa rete. Classificando le strutture delle agenzie in base alle loro aree di interesse e ai compromessi, forniscono una guida pratica agli sviluppatori per scegliere gli strumenti e le strategie giuste per le loro applicazioni.
Per i team aziendali, questo trasforma l’intelligenza artificiale dell’agenzia da un problema di selezione del modello a una decisione architettonica su dove spendere il budget per la formazione, quanta modularità mantenere e quali compromessi sono disposti a fare tra costi, flessibilità e rischio.
Strumento e adattamento dello strumento
I ricercatori dividono il paesaggio in due dimensioni principali: adattamento dell’agente E adattamento della squadra.
L’adattamento degli agenti implica la modifica del modello di base alla base del sistema degli agenti. Ciò viene fatto aggiornando i parametri o le politiche interne dell’agente attraverso metodi come il perfezionamento o l’apprendimento per rinforzo per adattarsi meglio a compiti specifici.
L’adattamento dello strumento, d’altro canto, sposta l’attenzione sull’ambiente che circonda l’agente. Invece di riqualificare il modello base ampio e costoso, gli sviluppatori ottimizzano strumenti esterni come ricevitori di chiamata, moduli di memoria o subagenti. In questa strategia, l’attore principale rimane "congelato" (invariato). Questo approccio consente al sistema di evolversi senza il grande costo computazionale di riqualificazione del modello principale.
Lo studio li divide ulteriormente in quattro diverse strategie:
A1: L’avviamento del veicolo ha dato il seguente segnale: In questa strategia, l’agente impara facendo. È ottimizzato utilizzando feedback verificabili direttamente dall’esecuzione di uno strumento, come un compilatore di codice che interagisce con uno script o un database che restituisce risultati di ricerca. Questo insegna all’agente a: "meccanico" sta utilizzando uno strumento correttamente.
Primo esempio di questo DeepSeek-R1In questo caso, il modello è stato addestrato tramite apprendimento per rinforzo con ricompense verificabili per generare codice eseguito con successo nella sandbox. Il segnale di feedback è binario e oggettivo (il codice ha funzionato o si è bloccato?). Questo metodo crea competenze solide e di basso livello in aree stabili e verificabili come la codifica o SQL.
A2: Segnale di uscita dell’agente fornito: Qui l’agente viene ottimizzato in base alla qualità della sua risposta finale, indipendentemente dai passaggi intermedi e dal numero di chiamate dell’agente che effettua. Questo insegna all’agente come organizzare vari strumenti per ottenere il giusto risultato.
un esempio Cerca-R1Un agente che esegue l’accesso in più passaggi per rispondere alle domande. Il modello riceve una ricompensa solo se l’ultima risposta è corretta, il che lo costringe indirettamente ad apprendere migliori strategie di ricerca e ragionamento per massimizzare tale ricompensa. A2 è ideale per l’orchestrazione a livello di sistema, consentendo agli agenti di gestire flussi di lavoro complessi.
T1: Indipendente dall’agente: In questa categoria, gli strumenti vengono addestrati in modo indipendente su dati di grandi dimensioni e poi "allegato" ad un agente congelato. Consideriamo i classici ricevitori densi utilizzati nei sistemi RAG. Un modello di cane da caccia standard viene addestrato con i dati di ricerca pubblici. Un LLM congelato forte può utilizzare questo ricevitore per trovare informazioni, anche se non è specificamente progettato per questo LLM.
T2: Controllato dal broker: Questa strategia prevede strumenti di formazione specifici per servire un agente congelato. Il segnale di controllo proviene dall’output stesso dell’agente, creando una relazione simbiotica in cui l’agente impara a fornire esattamente ciò di cui ha bisogno.
Per esempio, s3logica piccoli treni "cercatore" modello per ricevere i documenti. Questo piccolo modello è apprezzato sia che sia congelato o meno. "razionale" (un importante Master) può rispondere correttamente alla domanda utilizzando questi documenti. Lo strumento si adatta efficacemente per colmare le lacune di conoscenza specifiche del suo agente genitore.
I sistemi di intelligenza artificiale complessi possono utilizzare una combinazione di questi paradigmi di adattamento. Ad esempio, un sistema di ricerca approfondita potrebbe utilizzare agenti di recupero in stile T1 (recuperi densi pre-addestrati), agenti di ricerca adattiva in stile T2 (addestrati con feedback LLM congelato) e agenti di ragionamento in stile A1 (ottimizzati con feedback di esecuzione) in un sistema orchestrato più ampio.
Costi nascosti e compromessi
Per i decisori aziendali, la scelta tra queste strategie spesso si riduce a tre fattori: costo, generalizzazione e modularità.
Costo e flessibilità: L’adattamento dell’agente (A1/A2) offre la massima flessibilità mentre ricabla il cervello dell’agente. Ma i costi sono molto alti. Ad esempio, Search-R1 (un sistema A2) doveva essere addestrato su 170.000 campioni per internalizzare le sue capacità di ricerca. Ciò richiede grandi quantità di dati informatici e specializzati. I modelli, d’altro canto, possono essere molto più efficienti al momento dell’inferenza perché sono molto più piccoli dei modelli generali.
Al contrario, l’adattamento dell’utensile (T1/T2) è molto più efficiente. Il sistema S3 (T2) ha addestrato un ricercatore leggero utilizzando solo 2.400 campioni (circa 70 volte meno dati rispetto a Search-R1) ottenendo prestazioni comparabili. Le aziende possono ottenere prestazioni elevate a costi inferiori ottimizzando l’ecosistema anziché l’intermediario. Tuttavia, ciò introduce un tempo di inferenza dei costi complessivi poiché s3 richiede il coordinamento con un modello più grande.
Generalizzazione: Rischio dei metodi A1 e A2 "adattamento eccessivo," Dove un agente diventa così specializzato in un compito da perdere le sue capacità generali. Lo studio ha rilevato che, sebbene Search-R1 abbia ottenuto buoni risultati nei compiti di formazione, ha avuto difficoltà con la garanzia specifica della qualità medica, raggiungendo solo il 71,8% di precisione. Questo non è un problema quando l’agente è progettato per eseguire una serie di attività molto specifiche.
Al contrario, il sistema s3 (T2), utilizzando un agente congelato per uso generale supportato da uno strumento addestrato, ha generalizzato meglio, raggiungendo una precisione del 76,6% sugli stessi compiti medici. Lo strumento ha affrontato meccanismi di recupero specifici, mentre l’agente congelato ha mantenuto la sua vasta conoscenza del mondo. Tuttavia, i sistemi T1/T2 si basano sulla conoscenza dell’agente congelato e diventano inutili se il modello sottostante non può eseguire un compito particolare.
Modularità: Le strategie T1/T2 sono attivate "scambio a caldo." Puoi aggiornare un modulo di memoria o una sonda senza toccare il motore di ragionamento sottostante. Per esempio, Memoria ottimizza un modulo di memoria per recuperare casi passati; Se i requisiti cambiano, aggiorni il modulo, non lo scheduler.
I sistemi A1 e A2 sono monolitici. Insegnare a un agente una nuova abilità (come la codifica) attraverso il perfezionamento "dimenticanza catastrofica," Poiché i loro pesi interni vengono sovrascritti, si verifica una diminuzione delle competenze precedentemente apprese (come la matematica).
Un quadro strategico per l’adozione aziendale
Sulla base della ricerca, gli sviluppatori dovrebbero considerare queste strategie come una scala che passa da soluzioni modulari a basso rischio alla personalizzazione ad alta risorsa.
Inizia con T1 (strumenti indipendenti dall’agente): Equipaggia un modello congelato e potente (come Gemini o Claude) con strumenti standard come un cane da caccia intenso o un cane da caccia. Connettore MCP. Ciò non richiede alcuna formazione ed è perfetto per la prototipazione e le applicazioni generali. È un frutto a portata di mano che può portarti molto lontano nella maggior parte delle missioni.
Passa a T2 (veicoli controllati da agenti): Non riqualificare il modello principale se l’agente ha difficoltà a utilizzare strumenti comuni. Invece, addestra un piccolo agente secondario specializzato (come un ricercatore o un gestore della memoria) per filtrare e formattare i dati esattamente come piace all’agente principale. Si tratta di un sistema estremamente efficiente dal punto di vista dei dati e adatto a dati e applicazioni aziendali proprietari con volumi elevati e sensibili ai costi.
Utilizzare A1 (segnale di esecuzione del veicolo fornito) per la competenza: Se lo strumento fallisce sostanzialmente nelle attività tecniche (ad esempio, scrittura di codice non funzionale o chiamate API errate), è necessario ristrutturare la comprensione dello strumento. "meccanico." A1 è la soluzione migliore per creare esperti in domini verificabili come SQL o Python o i tuoi strumenti specifici. Ad esempio, puoi ottimizzare un modello di piccole dimensioni per il tuo set di strumenti e quindi utilizzarlo come plug-in T1 per un modello generale.
Come backup A2 (uscita agente segnalata) "opzione nucleare": Forma un agente monolitico end-to-end solo se hai bisogno di interiorizzare strategie complesse e autocorrezioni. Si tratta di un utilizzo intensivo delle risorse e raramente necessario per le applicazioni aziendali standard. In realtà, raramente hai bisogno di partecipare alla formazione del tuo modello.
Man mano che il panorama dell’intelligenza artificiale matura, l’attenzione si sta spostando dalla costruzione di un modello gigante e perfetto alla costruzione di un ecosistema intelligente di strumenti specializzati attorno a un nucleo stabile. Per la maggior parte delle organizzazioni, il percorso più efficace verso l’intelligenza artificiale dell’agenzia non è costruire un cervello più grande, ma dotarlo di strumenti migliori.















