L’unità di base dello sviluppo produttivo dell’intelligenza artificiale negli ultimi due anni è stata "completamento."

Invii un messaggio di testo a un modello, questo restituisce il testo e il processo è terminato. Se vuoi continuare la conversazione, devi inviare nuovamente l’intera cronologia al modello. Questo "apolide" Architettura plasmata dall’eredità di Google generateContent estremo: perfetto per chatbot semplici. Ma gli sviluppatori utilizzano strumenti, mantengono stati complessi e "pensare" Nel lungo periodo, questo modello apolide è diventato un collo di bottiglia significativo.

La settimana scorsa, Google DeepMind ha finalmente colmato questa lacuna infrastrutturale: Lancio della beta pubblica dell’API Interactions (/interactions).

Mentre OpenAI ha dato il via a questo cambiamento con la sua API Responses nel marzo 2025, l’ingresso di Google segnala i propri sforzi per far avanzare la tecnologia all’avanguardia. L’API Interactions non è solo uno strumento di gestione dello stato; È un’interfaccia unificata progettata per trattare i Master come sistemi operativi remoti piuttosto che come generatori di testo.

Modello di “calcolo remoto”.

La principale innovazione dell’API Interactions è che lo stato lato server viene presentato come comportamento predefinito.

In precedenza, uno sviluppatore che creava uno strumento complesso doveva gestire manualmente ogni elenco JSON in continua crescita. "utente" E "modello" Ritorna inviando megabyte di cronologia avanti e indietro con ogni richiesta. Con la nuova API, gli sviluppatori ne hanno solo uno previous_interaction_id. L’infrastruttura di Google include cronologia delle conversazioni, output degli strumenti e "Pensiero" al termine dei processi.

"I modelli diventano sistemi e, nel tempo, possono diventare essi stessi agenti." hanno scritto Ali Çevik e Philipp Schmid di DeepMind in una società ufficiale articolo del blog sul nuovo paradigma. "Sto cercando di spingere queste abilità generateContent avrebbe prodotto un’API eccessivamente complessa e fragile."

Questa modifica abilita l’esecuzione in background, una funzionalità fondamentale per l’era degli agenti. Flussi di lavoro complessi, come la navigazione sul Web per un’ora per sintetizzare un report, spesso attivano timeout HTTP nelle API standard. L’API Interactions consente agli sviluppatori di attivare un agente. background=true, disconnettiti e controlla il risultato più tardi. Trasforma effettivamente l’API in una coda di lavoro per l’intelligence.

Locale "Ricerca approfondita" e supporto MCP

Google sta utilizzando questa nuova infrastruttura per presentare il suo primo broker integrato: Gemini Deep Research.

È possibile accedervi allo stesso modo /interactions endpoint, che questo agente è in grado di eseguire "missioni di ricerca a lungo raggio." A differenza di un modello standard che prevede la moneta successiva in base alla tua richiesta, l’agente Deep Research esegue un ciclo di ricerca, lettura e sintesi.

Ancora più importante, Google sta anche abbracciando l’ecosistema aperto aggiungendo il supporto nativo per Model Context Protocol (MCP). Ciò consente ai modelli Gemini di chiamare direttamente strumenti esterni ospitati su server remoti, come un servizio meteorologico o un database, senza che lo sviluppatore debba scrivere codice assembler personalizzato per analizzare le chiamate dello strumento.

Visualizza: Google si unisce a OpenAI nell’era “Stateful”.

Google sta senza dubbio cercando di recuperare il ritardo, ma con un tocco filosofico diverso. OpenAI ha abbandonato il tema dell’apolidia nove mesi fa con il lancio dell’API Responses nel marzo 2025.

Sebbene entrambi gli sviluppatori risolvano il problema del gonfiamento del contesto, le loro soluzioni differiscono in termini di trasparenza:

OpenAI (approccio di compressione): L’API Answers di OpenAI ha introdotto la compressione, una funzionalità che comprime la cronologia delle conversazioni sostituendo gli output degli strumenti e le catene di ragionamento con opachi "elementi di compressione crittografati." Ciò dà priorità all’efficienza dei token ma "scatola nera" dove la logica storica del modello è nascosta allo sviluppatore.

Google (approccio ospitato): L’API Interactions di Google mantiene tutta la cronologia disponibile e componibile. Il modello dati consente agli sviluppatori di: "Debug, elaborazione, flusso e causa messaggi intermittenti." Dà priorità alla verificabilità rispetto alla compressione.

Modelli supportati e disponibilità

L’API Interactions è attualmente in versione beta pubblica (i documenti sono qui) ed è immediatamente disponibile tramite Google AI Studio. Supporta l’intera gamma di modelli di ultima generazione di Google, consentendo agli sviluppatori di abbinare la giusta dimensione del modello al loro compito specifico:

  • Gemelli 3.0: Anteprima di Gemini 3 Pro.

  • Gemelli 2.5: Flash, Flash-lite e Pro.

  • Rappresentanti: Anteprima della ricerca approfondita (deep-research-pro-preview-12-2025).

Commercialmente, l’API si integra nella struttura dei prezzi esistente di Google; Paghi tariffe standard per i token di entrata e di uscita a seconda del modello scelto. Ma con le nuove policy di conservazione dei dati, la proposta di valore sta cambiando. Poiché questa API è stateful, Google deve archiviare la cronologia delle tue interazioni per abilitare funzionalità come la memorizzazione nella cache implicita e il recupero del contesto.

L’accesso a questo spazio di archiviazione è determinato dal tuo livello. Gli sviluppatori del livello gratuito sono limitati a un criterio di conservazione di 1 giorno; è adatto per test temporali ma inadeguato per la memoria dell’agente a lungo termine.

Gli sviluppatori del livello a pagamento sbloccano una politica di conservazione di 55 giorni. Questa conservazione estesa non è solo a fini di audit; riduce efficacemente il costo totale di proprietà massimizzando gli accessi alla cache. preservando la storia "caldo" Per quasi due mesi sul server, eviti di pagare per eseguire nuovamente il rendering di finestre di contesto di grandi dimensioni per utenti duplicati, rendendo il livello a pagamento significativamente più efficiente per gli agenti a livello di produzione.

Nota: poiché si tratta di una versione Beta, Google ha informato che funzionalità e schemi potrebbero essere soggetti a modifiche significative.

“Stai interagendo con un sistema”

Sam Witteveen, specialista per sviluppatori Google in machine learning e CEO di Red Dragon AI, vede questa versione come un’evoluzione necessaria dello stack degli sviluppatori.

"Tornando indietro nella storia… l’intera idea era semplicemente input di testo, output di testo." Witteveen ha osservato: Analisi tecnica della trasmissione su YouTube. "Ma ora… stai interagendo con un sistema. Un sistema che può utilizzare più modelli, eseguire più cicli di chiamate, utilizzare strumenti ed eseguire codice sul back-end."

Witteveen ha evidenziato il vantaggio economico immediato di questa architettura: il caching implicito. Poiché la cronologia delle conversazioni è archiviata sui server di Google, agli sviluppatori non viene addebitato alcun costo per caricare ripetutamente lo stesso contenuto. "Non devi pagare così tanto per le monete che stai cercando," spiegato.

Ma il rilascio non è privo di attriti. Witteveen ha criticato l’attuale implementazione del sistema di citazioni rappresentative di Deep Research. Quando si forniscono risorse del broker, gli URL restituiti sono spesso racchiusi in collegamenti di riferimento interni di Google/Vertex AI anziché in URL grezzi e utilizzabili.

"Il mio problema più grande è… se provo a salvare questi URL e a usarli in una sessione diversa, non funzioneranno," Witteveen ha avvertito. "Se voglio creare un report per qualcuno con citazioni, voglio che possa fare clic sugli URL in un file PDF… Avere qualcosa come Orta.com come citazione (senza un collegamento diretto) non è molto buono."

Cosa significa questo per la tua squadra?

Per i principali ingegneri dell’intelligenza artificiale focalizzati sull’implementazione rapida e sulla messa a punto dei modelli, questa versione offre una soluzione architetturale diretta ai problemi persistenti. "tempo scaduto" problema: esecuzione in background.

Invece di creare gestori asincroni complessi o gestire code di lavori separate per attività di ragionamento a lunga esecuzione, ora puoi trasferire questa complessità direttamente a Google. Tuttavia, questa comodità porta con sé anche un compromesso strategico.

Il nuovo agente Deep Probe consente la rapida implementazione di funzionalità di mining avanzate mantenendo allo stesso tempo un "scatola nera" Rispetto ai flussi LangChain o LangGraph personalizzati. Gli ingegneri devono creare un prototipo "pensiero lento" utilizzando la funzione background=true Parametro per valutare se la velocità di esecuzione supera la perdita di controllo dettagliato sul ciclo di ricerca.

Gli ingegneri senior che gestiscono l’orchestrazione e il budget dell’IA sono responsabili della transizione al lato server previous_interaction_id Sblocca la memorizzazione nella cache implicita, che rappresenta un grande vantaggio sia in termini di costi che di parametri di latenza.

Facendo riferimento alla cronologia archiviata sui server di Google, eviti automaticamente i costi dei token associati al ricaricamento di ampie finestre di contesto, affrontando direttamente i vincoli di budget mantenendo prestazioni elevate.

La sfida risiede nella catena di fornitura; L’inclusione dell’MCP remoto (Model Context Protocol) significa che i tuoi agenti si connetteranno direttamente ad agenti esterni, richiedendoti di verificare rigorosamente che questi servizi remoti siano sicuri e autenticati. È ora di controllare la tua spesa attuale in monete per inviare nuovamente la cronologia delle conversazioni; se è elevato, dare priorità alla migrazione all’API Stateful Interactions può produrre risparmi significativi.

Per i Senior Data Engineer, l’API Interactions fornisce un modello di dati più robusto rispetto ai log di testo non elaborati. Lo schema strutturato consente il debug e la giustificazione di cronologie complesse, aumentando l’integrità complessiva dei dati nelle pipeline. Ma bisogna stare attenti alla qualità dei dati, in particolare alla questione sollevata dall’esperto Sam Witteveen riguardo alle citazioni.

Il rappresentante della Deep Research sta tornando adesso "avvolto" URL che potrebbero scadere o interrompersi al posto dei collegamenti di origine non elaborati. Se le tue pipeline si basano sullo scraping o sull’archiviazione di queste risorse, potrebbe essere necessario creare un passaggio di pulizia per estrarre URL utilizzabili. Dovresti anche testare le capacità di output configurate (response_format) per vedere se possono sostituire l’analisi precisa delle espressioni regolari nelle pipeline ETL esistenti.

Infine, per i direttori della sicurezza IT, spostare la situazione sui server centrali di Google rappresenta un paradosso. Mantenere le chiavi API e la cronologia delle conversazioni lontane dai dispositivi client può migliorare la sicurezza, ma introduce un nuovo rischio di residenza dei dati. Il controllo fondamentale qui sono le politiche di conservazione dei dati di Google: il livello gratuito conserva i dati solo per un giorno, mentre il livello a pagamento conserva la cronologia delle interazioni per 55 giorni.

Ciò è in contrasto con OpenAI "Zero conservazione dei dati" (ZDR) opzioni istituzionali. Dovresti assicurarti che la conservazione della cronologia delle conversazioni sensibili per circa due mesi sia adatta alla tua gestione interna. Se ciò viola la tua politica, dovresti configurare le ricerche con: store=falsema farlo disabiliterebbe le funzionalità stateful e i vantaggi in termini di costi che rendono preziosa questa nuova API.

Collegamento alla fonte