Anche se Gemini 3 continua a fare scalpore, Google non rinuncia a rilasciare nuovi modelli.

Ieri, l’azienda lancia FunctionGemmaUn modello AI proprietario da 270 milioni di parametri progettato per risolvere uno dei colli di bottiglia più persistenti nello sviluppo di applicazioni moderne: l’affidabilità all’edge.

A differenza dei chatbot generici, FunctionGemma è progettato per un’unica utilità critica; Converte i comandi utente in linguaggio naturale in codice strutturato che applicazioni e dispositivi possono effettivamente eseguire senza connettersi al cloud.

Questa versione segna un’importante pietra miliare strategica per Google DeepMind e il team di sviluppatori AI di Google. Mentre il settore continua a inseguire una scala di trilioni di parametri nel cloud, anche FunctionGemma è assertiva a questo riguardo. "Piccoli modelli linguistici" (SLM) vengono eseguiti in modo nativo su telefoni, browser e dispositivi IoT.

Questo modello introduce un nuovo principio architetturale per gli ingegneri dell’intelligenza artificiale e i costruttori di imprese: la privacy al primo posto "router" Questo può gestire la logica complessa sul dispositivo con un ritardo trascurabile.

FunctionGemma è disponibile per il download immediato Volto che abbraccia E Kaggle. Puoi anche vedere il modello in azione scaricando l’app Google AI Edge Gallery dal Google Play Store.

Innovazione delle prestazioni

Fondamentalmente, FunctionGemma affronta i seguenti argomenti: "divario esecutivo" nell’intelligenza artificiale generativa. I modelli standard di linguaggio di grandi dimensioni (LLM) sono ottimi nel parlare, ma spesso hanno difficoltà ad attivare in modo affidabile le azioni del software, soprattutto su dispositivi con risorse limitate.

Secondo i dati interni di Google "Transazioni mobili" Nella valutazione, un modello complessivamente piccolo fatica a garantire l’affidabilità, raggiungendo solo il 58% di precisione al suolo per le attività di chiamata di funzione. Tuttavia, una volta messo a punto per questo scopo specifico, la precisione di FunctionGemma è aumentata all’85%, creando un modello personalizzato che può mostrare lo stesso tasso di successo di modelli molte volte più grandi.

Consente al modello di utilizzare più che semplici interruttori on/off; può analizzare argomenti complessi, come specificare coordinate di griglia specifiche per guidare le meccaniche di gioco o la logica dettagliata.

La versione include più dei pesi del modello. Google offre un servizio completo "ricetta" Per gli sviluppatori:

  • Modello: un trasformatore con 270 milioni di parametri addestrati su 6 trilioni di token.

  • Dati di allenamento: A "Transazioni mobili" set di dati per aiutare gli sviluppatori ad addestrare i propri agenti.

  • Supporto ecosistema: compatibilità con le librerie Hugging Face Transformers, Keras, Unsloth e NVIDIA NeMo.

Omar Sanseviero, Hugging Face Developer Experience Lead, ha evidenziato la versatilità della versione su X (ex Twitter), sottolineando che il modello: "progettato per specializzarsi per i vostri compiti specifici" e può correre "il tuo telefono, browser o altri dispositivi."

Questo approccio local-first offre tre vantaggi distinti:

  • Privacy: i dati personali (come voci del calendario o contatti) non lasciano mai il dispositivo.

  • Latenza: le azioni si verificano istantaneamente, senza attendere il viaggio di andata e ritorno del server. Le dimensioni ridotte indicano che la velocità di elaborazione dell’input è importante; soprattutto con l’accesso ad acceleratori come GPU e NPU.

  • Costo: gli sviluppatori non pagano tariffe API per token per interazioni semplici.

Per gli sviluppatori di intelligenza artificiale: un nuovo modello per i flussi di lavoro di produzione

FunctionGemma propone il passaggio da sistemi di intelligenza artificiale monolitici a sistemi compositi per sviluppatori aziendali e architetti di sistema. I costruttori possono ora implementare FunctionGemma come modello cloud intelligente anziché indirizzare ogni piccola richiesta dell’utente verso un modello cloud grande e costoso come GPT-4 o Gemini 1.5 Pro. "controllore del traffico" sul bordo.

Ecco come gli sviluppatori di intelligenza artificiale dovrebbero concettualizzare l’utilizzo di FunctionGemma in produzione:

1. "Controllore del traffico" Architettonico: In un ambiente produttivo, FunctionGemma può fungere da prima linea di difesa. Risiede sul dispositivo dell’utente e gestisce al volo comandi comuni ad alta frequenza (navigazione, controllo multimediale, immissione di dati di base). Se una richiesta richiede un ragionamento approfondito o una conoscenza a livello mondiale, il modello può identificare tale esigenza e indirizzare la richiesta a un modello cloud più ampio. Questo approccio ibrido riduce notevolmente i costi di inferenza e la latenza del cloud. Ciò consente casi d’uso come l’instradamento delle query all’agente secondario appropriato.

2. Affidabilità deterministica sul caos creativo: Le organizzazioni raramente necessitano di applicazioni bancarie o di calendario. "creativo." Devono essere accurati. Il balzo all’85% di precisione conferma che l’esperienza prevale sulle dimensioni. La messa a punto di questo piccolo modello su dati specifici del dominio (ad esempio API di aziende private) crea uno strumento altamente affidabile che si comporta in modo prevedibile; questo è un requisito per la distribuzione in produzione.

3. Conformità alla privacy al primo posto: Per settori come quello sanitario, finanziario o delle operazioni aziendali sicure, l’invio di dati al cloud rappresenta spesso un rischio di conformità. Poiché FunctionGemma è sufficientemente efficiente da essere eseguito sul dispositivo (compatibile con NVIDIA Jetson, CPU mobili e Transformers.js basato su browser), i dati sensibili come PII o comandi personalizzati non devono mai lasciare la rete locale.

Licenza: Open-ish con Railings

FunzioneGemma Pubblicato con il permesso speciale di Google Condizioni d’uso di Gemma. Per gli sviluppatori aziendali e commerciali, questa è una distinzione fondamentale rispetto alle licenze open source standard come MIT o Apache 2.0.

Google descrive Gemma come segue: "modello aperto," sicuramente no "Open Source" Secondo la definizione dell’Open Source Initiative (OSI).

La Licenza consente l’uso commerciale, la ridistribuzione e la modifica gratuiti, ma contiene alcune limitazioni all’uso. Agli sviluppatori è vietato utilizzare il modello per attività limitate (come incitamento all’odio o creazione di malware) e Google si riserva il diritto di aggiornare questi termini.

Per la stragrande maggioranza delle startup e degli sviluppatori, la licenza è sufficientemente clemente per creare prodotti commerciali. Tuttavia, i team che sviluppano tecnologie a duplice uso o che richiedono una rigorosa libertà di copyright dovrebbero rivedere le disposizioni specifiche coinvolte. "Uso dannoso" e attribuzione.

Collegamento alla fonte