Microsoft ha introdotto Fara-7B, nuovo modello con 7 miliardi di parametri È progettato per agire come un agente informatico (CUA) in grado di eseguire attività complesse direttamente sul dispositivo dell’utente. Fara-7B stabilisce risultati nuovi e all’avanguardia per le sue dimensioni; Offre un modo per creare agenti IA che non si basano su modelli massicci e dipendenti dal cloud e possono funzionare in sistemi compatti con latenza inferiore e privacy migliorata.

Sebbene il modello sia una versione sperimentale, la sua architettura affronta l’ostacolo principale all’adozione aziendale: la sicurezza dei dati. Poiché Fara-7B è sufficientemente piccolo da poter essere eseguito in modo nativo, consente agli utenti di automatizzare flussi di lavoro sensibili, come la gestione di account interni o la gestione di dati aziendali sensibili, senza che tali informazioni lascino mai il dispositivo.

Come vede Internet Fara-7B?

Fara-7B è progettato per navigare nelle interfacce utente utilizzando gli stessi strumenti utilizzati da un essere umano: mouse e tastiera. Il modello funziona percependo visivamente una pagina web attraverso screenshot e prevedendo coordinate specifiche per azioni come fare clic, digitare e scorrere.

Ancora più importante, Fara-7B non si basa su: "Gli alberi di accessibilità” sono la struttura del codice sottostante utilizzata dai browser per descrivere le pagine Web agli screen reader. Si basano invece esclusivamente su dati visivi a livello di pixel. Questo approccio consente all’agente di interagire con i siti Web anche quando il codice sottostante è complesso o complesso.

Secondo Yash Lara, Senior PM Leader presso Microsoft Research, l’elaborazione di tutti gli input visivi sul dispositivo crea un risultato reale "dominazione dei pixel," perché gli screenshot e le giustificazioni per l’automazione rimangono sul dispositivo dell’utente. "Questo approccio aiuta le organizzazioni a soddisfare i severi requisiti dei settori regolamentati, tra cui HIPAA e GLBA." ha detto a VentureBeat nei commenti scritti.

Nei test di benchmark, questo approccio visivo ha prodotto ottimi risultati. Aprire WebVoyagerFara-7B, un punto di riferimento standard per gli agenti web, ha raggiunto un tasso di successo della missione del 73,5%. Ciò supera i sistemi più grandi e ad alta intensità di risorse, tra cui: GPT-4oquando è stato chiesto di agire come agente di utilizzo del computer (65,1%) e il modello nativo UI-TARS-1.5-7B (66,4%).

L’efficienza è un’altra differenza importante. Nei test benchmark, il Fara-7B ha completato le attività in media in circa 16 passaggi, mentre il modello UI-TARS-1.5-7B ha completato le attività in circa 41 passaggi.

gestione dei rischi

Ma la transizione verso agenti autonomi non è priva di rischi. Microsoft rileva che Fara-7B condivide limitazioni comuni ad altri modelli di intelligenza artificiale, tra cui potenziali allucinazioni, errori nel seguire istruzioni complesse e degrado della precisione su compiti complessi.

Per ridurre questi rischi, il modello è addestrato a riconoscerli "Punti critici." Un punto critico è definito come qualsiasi situazione che richiede i dati personali o il consenso dell’utente prima che possa verificarsi un’azione irreversibile, come l’invio di un’e-mail o il completamento di una transazione finanziaria. Quando viene raggiunto tale punto, Fara-7B è progettato per mettere in pausa e richiedere esplicitamente la conferma dell’utente prima di continuare.

Gestire questa interazione senza frustrare l’utente è una delle principali sfide di progettazione. "È fondamentale bilanciare solide misure di protezione come i punti critici con percorsi utente senza soluzione di continuità." disse Lara. "Avere un’interfaccia utente come Magentic-UI di Microsoft Research è fondamentale per offrire agli utenti l’opportunità di intervenire quando necessario e allo stesso tempo contribuire a prevenire l’affaticamento dell’approvazione." Interfaccia utente magnetica Si tratta di un prototipo di ricerca appositamente progettato per facilitare le interazioni uomo-agente. Fara-7B è progettato per funzionare su Magentic-UI.

Scomporre la complessità in un unico modello

Lo sviluppo di Fara-7B sottolinea una tendenza in crescita distillazione della conoscenzaDove le capacità di un sistema complesso sono compresse in un modello più piccolo ed efficiente.

La creazione di una CUA spesso richiede grandi quantità di dati di addestramento che mostrano come navigare sul Web. La raccolta di questi dati tramite annotazione umana è estremamente costosa. Per risolvere questo problema, Microsoft ha utilizzato una pipeline di dati sintetici basata su Magentic-OneUna struttura multi-agente. In questa configurazione, a "orchestratore" creato e amministrato piani rappresentativi "WebSurfer" Per la navigazione web, l’agente genera 145.000 traiettorie di missione riuscite.

I ricercatori più tardi "distillato" Fornisce questi complessi dati di interazione al Fara-7B, che è costruito sul Qwen2.5-VL-7B, un modello base scelto per la sua lunga finestra di contesto (fino a 128.000 token) e la sua forte capacità di collegare istruzioni di testo a elementi visivi sullo schermo. Mentre la generazione dei dati richiede un pesante sistema multi-agente, Fara-7B stesso è un modello singolo, dimostrando che un modello di piccole dimensioni può apprendere efficacemente comportamenti avanzati senza la necessità di impalcature complesse in fase di esecuzione.

Il processo di formazione si è basato su un perfezionamento supervisionato, in cui il modello ha imparato imitando esempi di successo generati dalla pipeline sintetica.

In attesa

Sebbene la versione attuale sia addestrata su set di dati statici, le iterazioni future si concentreranno sul rendere il modello più intelligente, non più grande. "Cercheremo di mantenere le dimensioni ridotte dei nostri modelli in futuro." disse Lara. "La nostra continua ricerca si concentra sulla creazione di modelli di agenti non solo più grandi, ma anche più intelligenti e sicuri." Ciò include l’esplorazione di tecniche come: apprendimento per rinforzo (RL) in ambienti vivi e protetti che consentono al modello di apprendere per tentativi ed errori in tempo reale.

Microsoft ha reso il modello disponibile presso Hugging Face e Microsoft Foundry su licenza del MIT. Tuttavia Lara avverte che, sebbene la licenza ne consenta l’uso commerciale, il modello non è ancora pronto per la produzione. "Puoi sperimentare e prototipare liberamente Fara-7B sotto la licenza MIT." dice, "ma è più adatto per progetti pilota e prove di concetto piuttosto che per implementazioni mission-critical."

Collegamento alla fonte