Un nuovo framework sviluppato dai ricercatori di Google Cloud e DeepMind mira ad affrontare una delle sfide chiave dello sviluppo di agenti di utilizzo dei computer (CUA): raccogliere esempi di formazione di alta qualità su larga scala.
chiamato cornice Guarda e impara (W&L) affronta il problema dell’addestramento alla generazione dei dati in un modo che non richiede annotazioni umane e può estrarre automaticamente demo da video grezzi.
I loro esperimenti mostrano che i dati generati da W&L possono essere utilizzati per addestrare o mettere a punto modelli di calcolo e di base esistenti per migliorare le loro prestazioni nelle attività informatiche. Ma altrettanto importante è che lo stesso approccio può essere utilizzato per creare: apprendimento in contesto Le istanze per gli agenti di utilizzo informatico (ICL) consentono alle aziende di creare CUA per attività interne su misura senza la necessità di una costosa formazione su modelli personalizzati.
Il collo di bottiglia dei dati della CUA
Il Web è ricco di tutorial video e schermate che spiegano flussi di lavoro complessi per l’utilizzo delle applicazioni. Questi video sono una miniera d’oro che possono fornire agenti utente informatici Con conoscenza del dominio e istruzioni per eseguire diverse attività attraverso le interazioni dell’interfaccia utente.
Tuttavia, prima di essere utilizzati per addestrare gli agenti CUA, questi video devono essere convertiti in traiettorie annotate (ovvero una serie di descrizioni di attività, schermate e azioni); Questo è un processo estremamente costoso e dispendioso in termini di tempo se eseguito manualmente.
Gli approcci attuali per risolvere questo collo di bottiglia dei dati si basano sull’annotazione di questi video attraverso l’uso di modelli linguistici multimodali, che spesso si traducono in esempi imprecisi e di scarsa precisione. Un approccio diverso utilizza agenti auto-giocanti che esplorano autonomamente le interfacce utente per raccogliere traiettorie. Tuttavia, le tecniche che utilizzano questo approccio spesso creano esempi semplicistici che non sono utili in situazioni imprevedibili del mondo reale.
Come notano i ricercatori nel loro articolo, “In generale, questi approcci si basano su fragili euristiche, sono costosi perché si basano sull’esplorazione in ambienti reali, o producono dimostrazioni a bassa complessità che sono disallineate con l’intento umano”.
Guarda e impara
Il framework Watch and Learn tenta di risolvere le sfide legate alla creazione di dimostrazioni CUA ripensando la formulazione del problema.
Invece di generare traiettorie dirette o fare affidamento su complesse condutture multistadio, i ricercatori inquadrano il problema come un “obiettivo di dinamica inversa”: date due osservazioni consecutive, prevedere l’azione intermedia che produce la transizione.
Secondo i ricercatori, questa formulazione è “più facile da apprendere, evita l’euristica artigianale e può essere generalizzata in modo robusto attraverso le applicazioni”.
Il quadro W&L può essere suddiviso in tre fasi chiave: formazione del modello della dinamica inversa (IDM), acquisizione di video grezzi e formazione dei rappresentanti della CUA.
Nella prima fase, i ricercatori hanno utilizzato agenti per interagire con pagine web live per creare un ampio corpus di 500.000 transizioni di stato (due osservazioni consecutive e un’azione risultante nella transizione). Hanno poi utilizzato questi dati (insieme a 132.000 transizioni annotate dall’uomo da set di dati aperti esistenti) per addestrare un modello di dinamica inversa (IDM) che prende due osservazioni consecutive e prevede l’azione di transizione. Il loro IDM addestrato, un modello di piccolo trasformatore, ha sovraperformato i modelli base standard nel prevedere le azioni di commutazione.
I ricercatori hanno quindi progettato una pipeline che prende video da piattaforme come YouTube e li fa passare attraverso IDM per creare traiettorie di alta qualità. IDM prende fotogrammi video consecutivi e identifica le azioni (scorrimento, clic) che causano cambiamenti nell’ambiente, che vengono poi impacchettati in traiettorie annotate. Utilizzando questo metodo, hanno generato 53.125 traiettorie con etichette di azioni ad alta precisione.
Questi esempi possono essere utilizzati per addestrare modelli di utilizzo del computer efficaci per attività specifiche. Ma i ricercatori hanno anche scoperto che le traiettorie estratte tramite IDM possono servire come esempi di apprendimento nel contesto per migliorare le prestazioni delle CUA al momento dell’inferenza su compiti specifici. Per ICL, utilizzano Gemini 2.5 Flash per aggiungere ulteriori annotazioni di ragionamento agli esempi di osservazione/azione nelle orbite; questi possono quindi essere aggiunti al prompt dell’agente CUA (solitamente 3-5 campioni) durante l’inferenza.
“Questo duplice ruolo (formazione e guida nel contesto) consente un’integrazione flessibile sia con i modelli open source che con gli agenti generici”, scrivono i ricercatori.
W&L al lavoro
Per testare l’utilità di W&L, i ricercatori hanno condotto una serie di esperimenti con modelli chiusi e open source. Confronto OSWorldValutazione degli agenti su diverse attività tra cui produttività, programmazione e progettazione in ambienti desktop e sistemi operativi reali.
Per perfezionare, hanno utilizzato il loro corpus di 53.000 traiettorie per addestrare due modelli open source: UI-TARS-1.5, un potente modello open source di visualizzazione-linguaggio-azione progettato specificamente per l’informatica, e Qwen 2.5-VLUn LLM multimodale apertamente ponderato.
Per i test di apprendimento in contesto, hanno applicato esempi di W&L a modelli multimodali generici come Gemini 2.5 Flash, OpenAI o3 e Claude Sonnet 4.
W&L ha portato a miglioramenti in tutte le categorie di modelli in OSWorld, con un massimo di 3 punti per ICL nei modelli generici e fino a 11 punti per i modelli open source ottimizzati.
È importante sottolineare che i ricercatori scrivono che questi vantaggi si ottengono senza alcuna annotazione manuale e “dimostrano che i flussi di lavoro umani su scala web possono fungere da base pratica e scalabile per far avanzare le CUA verso l’implementazione nel mondo reale”.
Ciò potrebbe avere implicazioni significative per le applicazioni del mondo reale, consentendo alle organizzazioni di trasformare le registrazioni di video e conferenze esistenti in dati di formazione per le CUA. Rende anche più facile creare nuove traiettorie educative. Tutto quello che devi fare è registrare video delle diverse attività eseguite e farli annotare da un IDM. Man mano che i modelli di frontiera migliorano continuamente e diventano più economici, puoi aspettarti di ottenere di più dai dati esistenti e il campo continua ad avanzare.
