Google ha dato il via al lancio di Gemini a pieno ritmo nell’ultimo anno, rilasciando la famiglia Gemini 2.5 molto migliorata e inserendo diverse versioni del modello in Ricerca, Gmail e tutto ciò che l’azienda ha da offrire.

Ora, l’intelligenza artificiale sempre più inevitabile di Google sta ricevendo un aggiornamento. Gemini 3 Pro lo è Disponibile oggi in quantità limitateRisultati visivi più coinvolgenti e meno false inclusioni, afferma Google L’azienda afferma inoltre che Gemini 3 Vibe stabilisce un nuovo traguardo per la codifica e Google annuncia un nuovo ambiente di sviluppo integrato (IDE) basato sull’intelligenza artificiale. Antigravitàche è ancora disponibile oggi.

Gemini 3 è il primo membro della famiglia

Google afferma che il rilascio di Gemini 3 è un altro passo verso l’Intelligenza Generale Artificiale (AGI). La nuova versione del modello AI di punta di Google estende le capacità del ragionamento simulato e mostra una migliore comprensione di testo, immagini e video. Finora, i tester lo adorano: l’ultimo LLM di Google è ancora una volta in cima alla classifica LMArena con un punteggio ELO di 1.501, superando Gemini 2.5 Pro di 50 punti.

Il realismo è stato un problema per tutti i generi di modelli IA, ma Google afferma che Gemini 3 è un grande passo nella giusta direzione e ha innumerevoli parametri di riferimento per raccontare la storia. Nel test convalidato SimpleQA da 1.000 domande, il Gemini 3 ha ottenuto un punteggio record del 72,1%. Sì, ciò significa che il LLM all’avanguardia sbaglia ancora circa il 30% delle domande di cultura generale, ma Google afferma che mostra ancora notevoli progressi. Nell’esame finale di materie umanistiche, molto più difficile, che mette alla prova le conoscenze e il ragionamento a livello di dottorato, i Gemelli hanno stabilito un altro record, ottenendo un punteggio del 37,5% senza l’uso di strumenti.

Anche la matematica e la programmazione sono al centro di Gemini 3. Il modello ha stabilito nuovi record in MathArena Apex (23,4%) e WebDev Arena (1487 ELO). Nello SWE-Bench Verify, che testa la capacità di un modello di generare codice, Gemini 3 ha raggiunto un impressionante 76,2%.

Collegamento alla fonte