I ricercatori affermano che SIMA 2 può eseguire una serie di compiti complessi all’interno del mondo virtuale, capire come risolvere da solo determinate sfide e chattare con i suoi utenti. Può anche migliorarsi affrontando compiti difficili più volte e imparando attraverso prove ed errori.
“I giochi sono stati una forza trainante nella ricerca sugli agenti per un bel po’ di tempo”, ha detto Joe Marino, ricercatore presso Google DeepMind, in una conferenza stampa questa settimana. Ha detto che anche una semplice azione nel gioco, come accendere una lanterna, può comportare più passaggi: “È davvero un insieme complesso di compiti che devi risolvere per progredire”.
L’obiettivo finale è sviluppare agenti di prossima generazione in grado di seguire istruzioni ed eseguire attività illimitate in ambienti più complessi di un browser web. A lungo termine, Google DeepMind vuole utilizzare tali agenti per guidare i robot del mondo reale. Marino ha affermato che le competenze apprese da SIMA 2, come navigare nell’ambiente, utilizzare strumenti e collaborare con gli esseri umani per risolvere i problemi, sono elementi essenziali per i futuri compagni robot.
A differenza del lavoro precedente sugli agenti di gioco come AlphaZero, che ha sconfitto un Gran Maestro di Go nel 2016, o AlphaStar, che Batti il 99,8% dei giocatori umani classificati nelle competizioni Nel videogioco StarCraft 2 del 2019, l’idea alla base di SIMA è quella di addestrare un agente a giocare a un gioco a tempo indeterminato senza obiettivi predeterminati. Invece, l’agente impara a seguire le istruzioni fornite dalle persone.
Gli esseri umani controllano SIMA 2 tramite chat di testo, parlando ad alta voce o disegnando sullo schermo del gioco. L’agente prende i pixel del videogioco fotogramma per fotogramma e capisce quali azioni deve intraprendere per completare i suoi compiti.
Come il suo predecessore, SIMA 2 è stato addestrato su filmati di esseri umani che giocano a otto videogiochi commerciali, tra cui No Man’s Sky e Goat Simulator 3, oltre a tre mondi virtuali creati dall’azienda. L’agente ha imparato ad abbinare gli input della tastiera e del mouse alle azioni.
Collegato a Gemini, sostengono i ricercatori, SIMA 2 è molto più bravo a seguire le istruzioni (ponendo domande e fornendo aggiornamenti) e a capire da solo come eseguire alcuni dei compiti più complessi.
Google DeepMind ha testato l’agente in un ambiente mai visto prima. In una serie di esperimenti, i ricercatori hanno chiesto a Genie 3, l’ultima versione del modello mondiale dell’azienda, di creare ambienti da zero e di inserirvi SIMA 2. Hanno scoperto che l’agente era in grado di navigare lì ed eseguire istruzioni.















