Alcuni dei maggiori fornitori di modelli linguistici di grandi dimensioni (LLM) stanno espandendo i propri modelli oltre i chatbot multimodali. "agenti" Questo può effettivamente elaborare più azioni per conto dell’utente sui siti web. Il broker ChatGPT di OpenAI (precedentemente "Operatore") e Computer Use di Anthropic, entrambi pubblicati negli ultimi due anni.

Ora Google sta entrando nello stesso gioco. Oggi, il gigante della ricerca La filiale del laboratorio DeepMind AI presenta una versione nuova, ottimizzata e appositamente addestrata del potente Gemini 2.5 Pro LLM conosciuto come "Utilizzo del computer Gemini 2.5 Pro," Quale può? Utilizza un browser virtuale per navigare sul Web per tuo conto, ottenere informazioni, compilare moduli e persino eseguire azioni sui siti Web – il tutto da un unico messaggio di testo per l’utente.

"Siamo agli inizi, ma la capacità del modello di interagire con il web (come lo scorrimento, la compilazione di moduli + la navigazione nei menu a discesa) rappresenta un miglioramento significativo. Il prossimo passo importante nella creazione di agenti per uso generale è" in questione L’amministratore delegato di Google, Sundar Pichai come parte di Descrizione più lunga sul social network, X.

Tuttavia, il modello non viene offerto ai consumatori direttamente da Google.

Al suo posto, Google ha formato una partnership con un’altra compagnia, Base del navigatorefondato da l’ex ingegnere di Twilio Paul Klein all’inizio del 2024fare offerte virtuali "senza testa" È un browser Web progettato specificamente per l’utilizzo da parte di agenti e applicazioni AI. (UN "senza testa" browser è un browser che non richiede un’interfaccia utente grafica o una GUI per navigare sul web; ma in questo caso e in altri, il Browser Base ne mostra una rappresentazione grafica per l’utente).

Gli utenti possono introdurre il nuovo modello di calcolo Gemini 2.5 direttamente nel Browser Base Qui e persino confrontarlo fianco a fianco in un modo nuovo con le offerte concorrenti più vecchie di OpenAI e Anthropic. "Arena del browser" è stato rilasciato dalla startup (sebbene sia possibile selezionare solo un modello aggiuntivo alla volta oltre al Gemini).

È realizzato in modo grezzo per sviluppatori e sviluppatori di intelligenza artificiale, sebbene sia un LLM proprietario Attraverso API Gemini in Google AI Studio per prototipazione rapidae Google Cloud IA del vertice selettore di modelli e piattaforma di sviluppo di applicazioni.

La nuova offerta si basa sulle capacità di: Gemelli 2.5 ProÈ stato rilasciato nel marzo 2025 ma da allora è stato aggiornato in modo significativo più volte, concentrandosi specificamente sul consentire agli agenti di intelligenza artificiale di interagire direttamente con le interfacce utente, inclusi browser e applicazioni mobili.

Sembra in generale Gemini 2.5 Computing è progettato per consentire agli sviluppatori di creare agenti in grado di completare in modo indipendente attività incentrate sull’interfaccia come fare clic, digitare, scorrere, compilare moduli e navigare dietro schermate di accesso.

Questo modello consente ai sistemi di intelligenza artificiale di interagire con il software visivamente e funzionalmente proprio come un essere umano, anziché fare affidamento esclusivamente su API o input strutturati.

Brevi test pratici per l’utente

Nei miei brevi e non scientifici test pratici iniziali sul sito Web Browser Base, Gemini 2.5 Computer Usage è riuscito a raggiungere con successo il sito Web ufficiale di Taylor Swift come da istruzioni, fornendomi un riepilogo di ciò che veniva venduto o promosso ai vertici: un’edizione speciale del suo ultimo album, "La vita di una showgirl."

In un altro test, ho chiesto a Gemini 2.5 PC Usage di cercare su Amazon luci solari molto apprezzate e ben recensite da poter posizionare nel mio giardino e sono stato felice di vederlo completare con successo un Captcha di ricerca Google progettato per eliminare gli utenti non umani ("Seleziona tutte le caselle contenenti motociclette.") Lo ha fatto in pochi secondi.

Tuttavia, dopo essere passato di lì, si fermò e, sebbene prestasse servizio per un po’, non riuscì a portare a termine il compito. "compito gareggiato" messaggio.

Dovrei anche notare qui che mentre OpenAI e l’agente ChatGPT di Claude di Anthropic possono creare e modificare file locali come presentazioni PowerPoint, fogli di calcolo o documenti di testo per conto dell’utente, Gemini 2.5 Computing attualmente non offre accesso diretto al file system o funzionalità di creazione di file locali.

È invece progettato per controllare e navigare nelle interfacce utente web e mobili attraverso azioni come fare clic, digitare e scorrere. Il suo output è limitato alle azioni dell’interfaccia utente suggerite o alle risposte di testo in stile chatbot; Qualsiasi output strutturato, come un documento o un file, deve essere gestito separatamente dallo sviluppatore, spesso tramite codice personalizzato o integrazioni di terze parti.

Confronti delle prestazioni

Google afferma che Gemini 2.5 Computing ha mostrato risultati importanti nei benchmark di controllo multi-interfaccia, soprattutto se confrontato con altri importanti sistemi di intelligenza artificiale, inclusi i modelli basati su agenti di Claude Sonnet e OpenAI.

Le valutazioni sono state condotte tramite Browser Base e test interni di Google.

Alcuni dei punti salienti includono:

  • Online-Mind2Web (base del browser): 65,7%, 61,0% (Claude Sonetto 4) e 44,3% (Agente OpenAI) per Gemini 2.5

  • WebVoyager (base del browser): 79,9%, 69,4% (Claude Sonetto 4) e 61,0% (Agente OpenAI) per Gemini 2.5

  • AndroidWorld (DeepMind): 69,7% contro 62,1% per Gemini 2.5 (Claude Sonetto 4); Non è stato possibile misurare il modello di OpenAI a causa della mancanza di accesso

  • Mondo del sistema operativo: Attualmente non supportato da Gemini 2.5; Il risultato del miglior concorrente è stato del 61,4%

Oltre all’elevata precisione, Google segnala che il modello funziona con una latenza inferiore rispetto ad altre soluzioni di controllo del browser; Questo è un fattore importante nei casi d’uso di produzione come l’automazione e i test dell’interfaccia utente.

Come funziona?

Alimentati dal modello informatico, gli agenti lavorano in un ciclo di interazione. Ricevono:

  • Una richiesta di attività utente

  • Schermata dell’interfaccia

  • Storia delle azioni passate

Il modello analizza questo input e produce un’azione dell’interfaccia utente suggerita, ad esempio fare clic su un pulsante o digitare in un campo.

Se necessario, può richiedere l’approvazione dell’utente finale per transazioni rischiose come l’acquisto.

Quando l’azione viene eseguita, lo stato dell’interfaccia viene aggiornato e un nuovo screenshot viene inviato al modello. Il ciclo continua finché l’attività non viene completata o interrotta a causa di un errore o di una decisione di sicurezza.

Il modello utilizza uno strumento speciale chiamato computer_usePuò essere integrato in ambienti speciali utilizzando strumenti come. Drammaturgo o attraverso Base del navigatore sandbox dimostrativo.

Casi d’uso e adozione

Secondo Google, i team interni ed esterni all’azienda hanno già iniziato a utilizzare il modello in diverse aree:

  • Il team della piattaforma di pagamento di Google Gemini riferisce che 2.5 Computing ha recuperato con successo oltre il 60% delle esecuzioni di test fallite, riducendo una delle principali fonti di inefficienze ingegneristiche.

  • ti importauna piattaforma di strumenti AI di terze parti, ha affermato che il modello ha sovraperformato gli altri su complesse attività di analisi dei dati e ha migliorato le prestazioni fino al 18% nei benchmark più impegnativi.

  • poke.comGemini, un fornitore proattivo di assistenti IA, ha notato che il suo modello spesso funziona 50% più veloce è migliore rispetto alle soluzioni concorrenti durante le interazioni dell’interfaccia.

Il modello viene utilizzato anche negli sforzi di sviluppo dei prodotti di Google. Progetto Marinaio, Agente di test FirebaseE Modalità Intelligenza Artificiale nella Ricerca.

Precauzioni di sicurezza

Poiché questo modello controlla direttamente le interfacce software, Google enfatizza un approccio alla sicurezza a più livelli:

  • UN. servizio di sicurezza per passo Esamina ogni azione proposta prima di eseguirla.

  • Gli sviluppatori possono definire istruzioni a livello di sistema per impedire determinate azioni o richiedere l’approvazione.

  • Il modello include misure di sicurezza integrate per prevenire azioni che potrebbero compromettere la sicurezza o violare le norme sull’uso vietato di Google.

Ad esempio, se il modello rileva un CAPTCHA, crea un’azione per fare clic sulla casella di controllo ma la contrassegna come richiedente l’approvazione dell’utente, garantendo che il sistema non proceda senza la supervisione umana.

Abilità tecniche

Il mockup supporta un’ampia varietà di azioni dell’interfaccia utente integrate, come:

  • click_at, type_text_at, scroll_document, drag_and_drope altro ancora

  • È possibile aggiungere funzioni definite dall’utente per estenderne la portata ad ambienti mobili o privati

  • Le coordinate dello schermo vengono normalizzate (scala 0–1000) e riconvertite in dimensioni pixel durante la riproduzione

accetta immagine e testo ingressi e uscite risposte testuali O chiamate di funzioni per eseguire compiti. Risoluzione dello schermo consigliata per risultati ottimali 1440×900ma può funzionare anche con altre dimensioni.

Il prezzo dell’API rimane quasi lo stesso di Gemini 2.5 Pro

Prezzi Utilizzo del computer Gemini 2.5 Strettamente compatibile con il modello Gemini 2.5 Pro standard. Entrambi seguono la stessa struttura di fatturazione per token: i token di input hanno il prezzo come segue: $ 1,25 per milione di monete Per crediti inferiori a 200.000 monete e $ 2,50 per milione di monete per prompt più lunghi.

I token di uscita seguono una suddivisione simile e hanno il prezzo come segue: $ 10,00 per milione per risposte più piccole e $ 15,00 per quelli più grandi.

Ciò che differenzia i modelli è l’usabilità e le funzionalità aggiuntive.

Gemini 2.5 Pro include un livello gratuito Ciò consente agli sviluppatori di utilizzare il modello senza alcun costo, senza emettere un limite di token aperto; tuttavia, l’utilizzo può essere soggetto a limiti di velocità o restrizioni di quota a seconda della piattaforma (es. Google AI Studio).

Questo accesso gratuito include sia token di accesso che di disconnessione. Quando gli sviluppatori superano la quota assegnata o passano al livello a pagamento, si applicano i prezzi standard per token.

Indietro, L’utilizzo del PC Gemini 2.5 è disponibile solo tramite il livello a pagamento.nessun accesso gratuito è attualmente disponibile per questo modello e tutto l’utilizzo è soggetto fin dall’inizio a prezzi basati su token.

Dal punto di vista delle funzionalità, Gemini 2.5 Pro supporta funzionalità opzionali come la memorizzazione nella cache del contesto (a partire da $ 0,31 per milione di token) e il rendering di base con Ricerca Google (gratuito per un massimo di 1.500 richieste al giorno, quindi $ 35 per 1.000 richieste aggiuntive). Questi non sono attualmente disponibili per l’uso su PC.

Un’altra distinzione riguarda l’elaborazione dei dati: l’output del modello Compute Usage non viene utilizzato per migliorare i prodotti Google nel livello a pagamento, mentre l’utilizzo del livello gratuito da parte di Gemini 2.5 Pro contribuisce a migliorare il modello a meno che non sia esplicitamente disabilitato.

In generale, gli sviluppatori possono aspettarsi costi simili basati su token con entrambi i modelli, ma dovrebbero considerare l’accesso ai livelli, le funzionalità incluse e le policy di utilizzo dei dati quando decidono quale modello si adatta alle loro esigenze.

Collegamento alla fonte