I ricercatori di Nvidia e dell’Università di Hong Kong hanno rilasciato Orchestrator, un modello da 8 miliardi di parametri che coordina strumenti disparati e modelli linguistici di grandi dimensioni (LLM) per risolvere problemi complessi. Nei suoi esperimenti, Orchestrator ha ottenuto una maggiore precisione nei confronti dell’utilizzo degli strumenti a un costo inferiore rispetto a modelli molto più grandi, adattandosi al tempo stesso alle preferenze dell’utente su quali strumenti utilizzare per una determinata query.
Addestrato tramite modello VeicoloOrchestraUn nuovo framework di apprendimento per rinforzo (RL) per addestrare piccoli modelli a fungere da coordinatori intelligenti. L’approccio si basa su una piccola idea. "orchestratore" Gestire un team eterogeneo di modelli e strumenti specializzati può essere più efficace ed efficiente di un unico sistema di intelligenza artificiale monolitico.
I risultati suggeriscono che questo approccio combinato potrebbe aprire la strada a sistemi di ragionamento basati sull’intelligenza artificiale più pratici e scalabili nell’impresa.
Limiti dell’attuale utilizzo dello strumento Master
Conferimento del titolo di Master accedere a strumenti esterni è un modo promettente per espandere le proprie capacità oltre i dati di addestramento e nelle missioni delle agenzie. Gli agenti IA possono migliorare la loro precisione ed eseguire attività in-app utilizzando risorse come motori di ricerca e interpreti di codice.
Tuttavia, documento di accompagnamentoI ricercatori sostengono che l’attuale approccio alla creazione di agenti che utilizzano strumenti non sfrutta l’intero potenziale di questo paradigma. La maggior parte dei sistemi dota un unico e potente modello di una serie di strumenti di base, come una ricerca sul web o una calcolatrice.
Sostengono che quando ragionano, gli esseri umani “si estendono regolarmente facendo appello a fonti di intelligenza superiore a quella umana, dagli esperti del settore ai processi complessi e ai sistemi software”. Di conseguenza, i Master devono essere in grado di interagire con un’ampia gamma di strumenti a diverse capacità.
Paradigma di modifica degli strumenti
L’articolo propone una transizione da un sistema a modello singolo a un sistema composito guidato da un sistema leggero. "orchestratore" modello. Il compito dell’orchestratore è analizzare e scomporre un compito complesso, utilizzando gli strumenti giusti nell’ordine giusto per arrivare a una soluzione.
Questo set di strumenti include non solo utilità standard come ricerca web e interpreti di codice, ma anche altri LLM con varie funzionalità che funzionano come segue: "strumenti intelligenti." Ad esempio, l’orchestratore potrebbe delegare una domanda quantitativa a un modello incentrato sulla matematica o una sfida di programmazione a un modello di generazione del codice. Invece di inserire tutto il carico cognitivo in un unico modello ampio e generalista, l’orchestratore delega sottoproblemi ristretti a strumenti intelligenti specializzati.
Sulla base di questo concetto, i ricercatori hanno sviluppato ToolOrchestra, un metodo che utilizza RL per addestrare un piccolo modello linguistico a fungere da orchestratore. Il modello impara quando e come fare riferimento ad altri modelli e strumenti e come combinare i loro risultati in un ragionamento multi-riflessivo. Gli strumenti sono definiti in un semplice formato JSON, specificandone nomi, descrizioni e parametri.
Il processo di formazione RL è guidato da un sistema di ricompensa che produce un agente economicamente vantaggioso e controllabile. La ricompensa bilancia tre obiettivi: accuratezza della risposta finale, efficienza in termini di costi e latenza e allineamento con le preferenze dell’utente. Ad esempio, il sistema viene penalizzato per l’uso eccessivo del computer e premiato per la scelta degli strumenti preferiti dall’utente, come la scelta di un modello open source rispetto a un’API proprietaria per motivi di privacy. Per supportare questa formazione, il team ha anche sviluppato una pipeline di dati automatizzata che genera migliaia di esempi di formazione verificabili in 10 domini diversi.
Un piccolo modello dai grandi risultati
I ricercatori hanno addestrato Orchestrator, un modello con 8 miliardi di parametri, utilizzando ToolOrchestra. Qwen3-8B. Hanno valutato la sua prestazione rispetto a tre criteri rigorosi: L’ultima prova dell’umanità (hle),, CORNICI E Tau2-Panca. È stato confrontato con una varietà di linee di base, inclusi grandi LLM standardizzati, sia strumentati che non strumentati.
I risultati hanno mostrato che anche i modelli più potenti faticano senza strumenti, confermando la necessità di un ragionamento complesso. Sebbene l’aggiunta di strumenti abbia migliorato le prestazioni per i modelli di grandi dimensioni, spesso ha comportato un aumento significativo dei costi e della latenza.
Al contrario, l’8B Orchestrator ha fornito risultati impressionanti. Orchestrator ha sovraperformato significativamente i metodi precedenti su HLE, un punto di riferimento per le domande a livello di dottorato, a una frazione del costo computazionale. Nel test di chiamata della funzione Tau2-Bench, ha effettivamente programmato diversi strumenti; ha chiamato un modello principale come GPT-5 solo per circa il 40% dei passaggi e ha utilizzato opzioni più economiche per il resto; eppure ha sovraperformato un rappresentante che utilizzava il modello più grande in ogni fase del processo.
I ricercatori hanno scoperto che l’orchestratore addestrato in RL ha adattato la sua strategia alle nuove sfide e "elevato grado di capacità di giudizio generale." Orchestrator, che è vitale per le applicazioni aziendali, ha generalizzato bene anche a modelli e strutture di prezzo che non aveva visto durante la formazione. Questa flessibilità rende il quadro adatto alle aziende che fanno affidamento su un mix di modelli e strumenti di intelligenza artificiale pubblici, privati e proprietari. Costi inferiori, maggiore velocità e personalizzazione lo rendono un approccio pratico alla creazione di agenti IA avanzati e scalabili.
Poiché le aziende cercano di implementare agenti IA più avanzati, questo approccio di orchestrazione offre un percorso verso sistemi che non sono solo più intelligenti, ma anche più economici e controllabili. ( pesi del modello disponibili ora con licenza non commerciale, ma anche Nvidia codice di formazione consentito dalla licenza Apache 2.0.)
Come conclude l’articolo, il futuro potrebbe risiedere in versioni ancora più avanzate di questo concetto: “Guardando al futuro, immaginiamo sistemi di orchestrazione ricorsivi più complessi per spingere il limite superiore dell’intelligenza (e allo stesso tempo aumentare ulteriormente l’efficienza nella risoluzione di compiti di agenzia sempre più complessi)”.















