antropico Lunedì ha lanciato il suo modello di intelligenza artificiale più potente di sempre, tagliando i prezzi di circa due terzi e rivendicando prestazioni all’avanguardia nelle attività di ingegneria del software; È una mossa strategica che intensifica la rivalità della startup AI con i ricchi rivali OpenAI e Google.

nuovo modello, Chiudi Esegui 4.5Secondo i materiali esaminati da VentureBeat, ha ottenuto il punteggio più alto nella più severa valutazione ingegneristica interna di Anthropic rispetto a qualsiasi altro candidato umano nella storia dell’azienda. Il risultato sottolinea sia le capacità in rapida evoluzione dei sistemi di intelligenza artificiale sia le crescenti domande su come la tecnologia rimodellerà le professioni dei colletti bianchi.

La società sostenuta da Amazon sta valutando Claude Opus 4.5 come segue: $ 5 per milione di monete di accesso E $ 25 per milione di gettoni di uscita — una drastica diminuzione delle tariffe di $ 15 e $ 75 rispetto al modello precedente, Chiudi Esegui 4.1È stato pubblicato all’inizio di quest’anno. La mossa rende le capacità avanzate di intelligenza artificiale accessibili a una gamma più ampia di sviluppatori e organizzazioni, esercitando pressione sui rivali sia in termini di prestazioni che di prezzi.

"Vogliamo assicurarci che funzioni davvero per coloro che vogliono lavorare con questi modelli." Alex Albert, responsabile delle relazioni con gli sviluppatori di Anthropic, ha dichiarato in un’intervista esclusiva con VentureBeat. "Questo è il nostro obiettivo principale: come possiamo migliorare Claude nell’aiutarti a fare cose nella tua attività che non necessariamente vuoi fare?"

L’annuncio arriva mentre Anthropic corre per mantenere la propria posizione in un settore sempre più affollato. OpenAI è stato recentemente rilasciato GPT-5.1 e uno speciale modello di codifica chiamato Codice Massimo possono operare in modo indipendente per lunghi periodi di tempo. Google ha annunciato Gemelli 3 proprio la settimana scorsa, Ciò solleva preoccupazioni anche da parte di OpenAI Secondo un recente rapporto di The Information sui progressi del gigante della ricerca.

Gli sviluppatori affermano che Opus 4.5 dimostra una migliore capacità di ragionamento nelle attività del mondo reale

I test interni di Anthropic hanno rivelato quello che l’azienda descrive come un salto di qualità nelle capacità di ragionamento di Claude Opus 4.5. Il modello ha raggiunto una precisione dell’80,9% su: Panca SWE VerificatoÈ un benchmark che misura le attività di ingegneria del software nel mondo reale, superando GPT-5.1-Codex-Max di OpenAI (77,9%), Sonnet 4.5 di Anthropic (77,2%) e Gemini 3 Pro di Google (76,2%), secondo i dati dell’azienda. Il risultato segna un miglioramento significativo rispetto all’attuale modello all’avanguardia di OpenAI, rilasciato solo cinque giorni fa.

Ma i parametri tecnici raccontano solo una parte della storia. Albert ha affermato che i tester dei dipendenti riferiscono costantemente che il modello dimostra un miglioramento del giudizio e dell’intuizione su una varietà di compiti; Questo cambiamento è stato descritto come il modello che sviluppa il senso di ciò che è importante nei contesti del mondo reale.

"Il modello in un certo senso lo capisce," Ha detto Alberto. "Ha sviluppato questo tipo di intuizione e ragionamento su molte cose nel mondo reale che, qualitativamente, sembra un enorme passo avanti rispetto ai modelli del passato."

Ha mostrato il suo flusso di lavoro come esempio. Albert ha affermato di aver precedentemente chiesto ai modelli di intelligenza artificiale di raccogliere informazioni, ma di essere riluttante a fare affidamento sulla loro sintesi o sulla definizione delle priorità. Con Opus 4.5, delega compiti più completi, collegandolo a Slack e ai documenti interni per produrre riepiloghi coerenti in linea con le sue priorità.

Opus 4.5 supera tutti i candidati umani nel test ingegneristico più duro dell’azienda

Le prestazioni del modello nella valutazione ingegneristica interna di Anthropic segnano un traguardo notevole. Progettato per potenziali candidati in ingegneria delle prestazioni, lo scopo dell’esame da portare a casa è valutare l’abilità tecnica e il processo decisionale in tempi ristretti entro un periodo di due ore stabilito.

Utilizzando una tecnica chiamata calcolo parallelo del tempo di test, che raggruppa più prove nel modello e seleziona il risultato migliore: Lavoro 4.5 Secondo l’azienda, ha ottenuto un punteggio più alto di qualsiasi altro candidato umano che ha sostenuto il test. Quando utilizzato in Claude Code, l’ambiente di codifica di Anthropic, il modello ha eguagliato le prestazioni del miglior candidato umano di sempre, senza limiti di tempo.

L’azienda ha riconosciuto che il test non ha misurato altre importanti competenze lavorative, come la collaborazione, la comunicazione o gli istinti sviluppati in anni di esperienza. Eppure Anthropic ha detto il risultato "Solleva interrogativi su come l’intelligenza artificiale cambierà l’ingegneria come professione."

Albert ha sottolineato l’importanza del ritrovamento. "Penso che questo sia forse un segno di quanto questi modelli possano essere utili in un contesto aziendale e per la nostra attività." ha detto. "Certo, questo è stato un lavoro di ingegneria e posso dire che i modelli sono relativamente avanti in ingegneria rispetto ad altri campi, ma penso davvero che sia un segnale importante a cui prestare attenzione."

I notevoli miglioramenti dell’efficienza riducono l’utilizzo dei token fino al 76% rispetto ai benchmark chiave

Anthropic ritiene che i miglioramenti in termini di efficienza si differenzieranno al di là delle prestazioni grezze Chiudi Esegui 4.5 nel mercato. La società afferma che il modello utilizza un numero significativamente inferiore di token (unità di testo elaborate dai sistemi di intelligenza artificiale) per ottenere risultati simili o migliori rispetto ai modelli precedenti.

A sforzo medio l’Opus 4.5 eguaglia il suo predecessore Sonetto 4.5 miglior punteggio del modello Panca SWE Verificato Utilizza il 76% in meno di token di uscita rispetto ad Anthropic. Al livello di impegno più elevato, Opus 4.5 supera Sonnet 4.5 di 4,3 punti percentuali e utilizza ancora il 48% di token in meno.

Per dare agli sviluppatori un maggiore controllo, Anthropic "parametro dello sforzo" Ciò consente agli utenti di regolare la quantità di lavoro computazionale che il modello applica a ciascuna attività; bilancia le prestazioni con la latenza e i costi.

I clienti aziendali hanno fornito una convalida anticipata delle dichiarazioni di efficienza. "Opus 4.5 supera Sonnet 4.5 e la concorrenza nei nostri benchmark interni utilizzando meno token per risolvere gli stessi problemi," Michele Catasta, presidente di Replit, una piattaforma di codifica basata su cloud, ha dichiarato in una dichiarazione a VentureBeat. "Su larga scala, questa efficienza aumenta ancora di più."

Mario Rodriguez, chief product officer di GitHub, ha affermato che i primi test mostrano che Opus 4.5 "Supera i benchmark di codifica interni riducendo della metà l’utilizzo dei token ed è particolarmente adatto per attività quali la migrazione e il refactoring del codice."

I primi clienti riferiscono che gli agenti IA imparano dall’esperienza e migliorano le proprie capacità

Una delle capacità più sorprendenti dimostrate dai primi clienti è come la chiama Anthropic. "agenti auto-potenzianti" — Sistemi di intelligenza artificiale in grado di migliorare le proprie prestazioni attraverso l’apprendimento iterativo.

RakutenL’azienda giapponese di e-commerce e Internet Claude ha testato Opus 4.5 per l’automazione delle attività d’ufficio. "I nostri rappresentanti hanno potuto sviluppare le proprie competenze in maniera autonoma; Sebbene abbia raggiunto le prestazioni più elevate in 4 iterazioni, altri modelli non sono riusciti a raggiungere questa qualità dopo 10 iterazioni." ha affermato Yusuke Kaji, direttore generale dell’intelligenza artificiale aziendale di Rakuten.

Albert ha spiegato che il modello non aggiorna i propri pesi, che sono i parametri chiave che definiscono il comportamento di un sistema di intelligenza artificiale, ma migliora invece in modo iterativo gli strumenti e gli approcci utilizzati per risolvere i problemi. "Migliorerebbe in modo iterativo l’abilità per un compito e vedrebbe se stesso cercare di ottimizzare l’abilità per ottenere prestazioni migliori per portare a termine quel compito." ha detto.

Il talento va oltre la programmazione. Albert ha affermato che Anthropic ha riscontrato miglioramenti significativi nella creazione di documenti, fogli di calcolo e presentazioni professionali. "Dicono che questo è il salto più grande che hanno visto tra le generazioni di modelli." Ha detto Alberto. "Quindi passare da Sonnet 4.5 a Opus 4.5 è un salto più grande rispetto a due modelli consecutivi del passato."

Laboratori di ricerca di baseLa società di modellizzazione finanziaria ha riferito: "Nelle nostre valutazioni interne, la precisione è aumentata del 20%, la produttività del 15% e compiti complessi che una volta sembravano irraggiungibili sono diventati realizzabili." secondo il co-fondatore Nico Christie.

Le nuove funzionalità si rivolgono agli utenti di Excel e ai flussi di lavoro di Chrome ed eliminano i limiti di durata della chat

Oltre al lancio del modello, Anthropic ha anche rilasciato una suite di aggiornamenti del prodotto rivolti agli utenti aziendali. Claude per Excel è ora disponibile per gli utenti Max, Team ed Enterprise con il nuovo supporto per tabelle pivot, grafici e caricamenti di file. L’estensione del browser Chrome è ora disponibile per tutti gli utenti Max.

Forse la cosa più importante è stata l’introduzione dell’Anthropic "chiacchierate infinite" — una funzionalità che elimina le limitazioni della finestra di contesto riassumendo automaticamente le parti precedenti delle conversazioni man mano che si allungano. "All’interno di Claude AI, nel prodotto stesso, ottieni effettivamente questo tipo di finestra di contesto infinita grazie alla compressione, così come alcune delle operazioni di memoria che eseguiamo." Alberto spiegò.

Anthropic rilasciato per gli sviluppatori "chiamata programmatica in auto," Ciò consente a Claude di scrivere ed eseguire codice che chiama direttamente le funzioni. Codice Claude aggiornato "Modalità Pianificazione" ed è disponibile su desktop in anteprima di ricerca, consentendo agli sviluppatori di eseguire più sessioni di strumenti AI in parallelo.

Il mercato si surriscalda mentre OpenAI e Google gareggiano per abbinare prestazioni e prezzi

Antropico raggiunto 2 miliardi di dollari di fatturato annuo Nel primo trimestre del 2025, è più che raddoppiato rispetto al miliardo di dollari del periodo precedente. Il numero di clienti che spendono più di 100.000 dollari all’anno è aumentato di otto volte rispetto all’anno precedente.

rilascio rapido Lavoro 4.5 – solo settimane dopo Haiku 4.5 in ottobre e Sonetto 4.5 a settembre, riflettendo le dinamiche più ampie del settore. OpenAI ha rilasciato più varianti GPT-5 nel corso del 2025, inclusa una versione speciale. Modello Codice Max Può funzionare autonomamente fino a 24 ore nel mese di novembre. Google ha rilasciato Gemini 3 a metà novembre dopo mesi di sviluppo.

Albert ha attribuito la maggiore velocità di Anthropic in parte all’utilizzo di Claude per accelerare il proprio sviluppo. "Riceviamo molto aiuto e accelerazione dallo stesso Claude, sia dal punto di vista della creazione del prodotto vero e proprio che della ricerca del modello." ha detto.

Un calo dei prezzi per Opus 4.5 potrebbe potenzialmente espandere il mercato indirizzabile ma anche mettere sotto pressione i margini. "Mi aspetto di vedere molte startup iniziare a incorporarlo maggiormente nei loro prodotti e a metterlo in risalto." Ha detto Alberto.

Ma la redditività rimane sfuggente per i principali laboratori di intelligenza artificiale che investono molto in infrastrutture informatiche e capacità di ricerca. Si prevede che i ricavi del mercato dell’intelligenza artificiale raggiungeranno i mille miliardi di dollari Dopo dieci anni, nessun singolo fornitore è riuscito a stabilire una posizione dominante nel mercato, anche se i modelli raggiungono una soglia in cui possono automatizzare in modo significativo il lavoro complesso sulle informazioni.

Michael Truell, CEO di Cursor, un editor di codice basato sull’intelligenza artificiale chiamato Opus 4.5 "Un notevole miglioramento nel Cursor rispetto ai precedenti modelli Claude; Prezzi e intelligenza migliorati per attività di codifica impegnative." Scott Wu, CEO della startup di codifica AI Cognition, ha affermato che il modello fornisce: "Risultati più solidi e prestazioni costanti nelle nostre valutazioni più impegnative attraverso sessioni di codifica indipendenti di 30 minuti."

Per le aziende e gli sviluppatori, la concorrenza significa migliorare rapidamente i talenti a prezzi in calo. Ma poiché le prestazioni dell’intelligenza artificiale nei compiti tecnici si avvicinano e talvolta superano il livello di competenza umana, l’impatto della tecnologia sul lavoro professionale teoricamente diminuisce.

Alla domanda sui risultati degli esami di ingegneria e su cosa segnalano sulla direzione dell’intelligenza artificiale, Albert è stato diretto: "Penso che questo sia un segnale davvero importante a cui prestare attenzione."

Collegamento alla fonte