Per diverse settimane, un crescente coro di sviluppatori e utenti esperti di intelligenza artificiale hanno affermato che i modelli di punta di Anthropic hanno perso il loro vantaggio. Gli utenti su GitHub, X e Reddit hanno segnalato un fenomeno che hanno descritto come: "Contrazione dell’IA"-Un danno percepito in cui Claude appare meno capace di ragionamento sostenuto, è più incline alle allucinazioni e spreca sempre più monete.
I critici hanno sottolineato un cambiamento misurabile nel comportamento, sostenendo che il modello si sta muovendo da un vecchio punto di vista. "prima la ricerca" avvicinarsi ad una persona pigra, "modifica prima" Uno stile di cui non ci si può più fidare per l’ingegneria complessa.
Mentre la società inizialmente si è opposta alle accuse "dimagrimento" Modello per la gestione della domanda, prove crescenti da parte di utenti di alto profilo e benchmark di terze parti hanno creato un significativo divario di fiducia.
Oggi, Anthropic ha affrontato direttamente queste preoccupazioni rilasciando un’autopsia tecnica che ha identificato tre cambiamenti separati del livello di prodotto responsabili dei problemi di qualità segnalati.
"Prendiamo molto sul serio le segnalazioni di disagi," lettore Post sul blog di Anthropic sull’argomento. "Non abbiamo mai danneggiato intenzionalmente i nostri modelli e abbiamo potuto verificare immediatamente che la nostra API e il livello di inferenza non erano interessati."
Anthropic afferma di aver risolto i problemi ripristinando la modifica dello sforzo di ragionamento e la richiesta di verbosità, risolvendo al contempo il bug di memorizzazione nella cache nella v2.1.116.
Prove crescenti di degrado
La discussione ha acquisito slancio all’inizio di aprile 2026, guidata da un’analisi tecnica dettagliata da parte della comunità degli sviluppatori. ha affermato Stella Laurenzo, Senior Director del gruppo AI di AMD. Pubblicato un audit completo di 6.852 file di sessione di Claude Code e oltre 234.000 chiamate a strumenti su Github Mostra che le prestazioni sono diminuite a causa dell’uso precedente.
Le loro scoperte suggerivano che la profondità del ragionamento di Claude diminuiva drasticamente, portando a circoli viziosi di giudizio e ad una tendenza a scegliere ciò che era giusto. "soluzione più semplice" piuttosto che ciò che è giusto.
Questa delusione aneddotica è stata apparentemente confermata da benchmark di terze parti. BridgeMind ha riferito che la precisione di Claude Opus 4.6 è scesa dall’83,3% al 68,3% nei loro test, facendo scendere la classifica dal 2° al 10°.
Sebbene alcuni ricercatori sostengano che questi confronti di benchmark specifici siano viziati da una copertura incoerente dei test, la narrazione che Claude è diventata "più stupido" è diventato un punto di discussione virale. Gli utenti hanno inoltre riferito che i limiti di utilizzo venivano esauriti più velocemente del previsto, facendo sospettare che Anthropic stesse deliberatamente limitando le prestazioni per gestire l’aumento della domanda.
Ragioni
Nel suo post sulle sabbie mobili post-Morem, Anthropic ha spiegato che, sebbene non vi sia alcuna regressione ai pesi del modello base, ci sono tre modifiche specifiche al modello. "installazione" circondare i modelli ne aveva involontariamente ostacolato le prestazioni:
-
Sforzo di ragionamento predefinito: Il 4 marzo, Anthropic ha modificato il proprio giudizio in contumacia in:
highconmediumPer Claude Code per risolvere i problemi di ritardo dell’interfaccia utente. Lo scopo di questa modifica era impedire la visualizzazione dell’interfaccia "congelato" quando si pensa al modello, ma ha causato un notevole calo dell’intelligenza per compiti complessi. -
Errore logico di memorizzazione nella cache: Pubblicato il 26 marzo, un’ottimizzazione della cache mirata a eliminare quelli vecchi "pensiero" Conteneva un bug critico causato da sessioni inattive. Invece di cancellare la cronologia del pensiero dopo un’ora di inattività, la cancellava ad ogni turno successivo, facendo perdere la funzionalità al modello. "memoria a breve termine" e può diventare ripetitivo o smemorato.
-
Limiti dei dettagli dei prompt di sistema: Il 16 aprile, Anthropic ha aggiunto istruzioni al sistema per mantenere il testo tra le chiamate di corsa sotto le 25 parole e sotto le 100 parole tra le risposte finali. Questo tentativo di ridurre il livello di dettaglio nell’Opus 4.7 è fallito, causando un calo del 3% nelle valutazioni della qualità della codifica.
Impatto e precauzioni future
I problemi di qualità vanno oltre la CLI di Claude Code, SDK dell’agente Claude E Claudio CoworkAncora Claudio API non impressionato.
Anthropic ha ammesso che questi cambiamenti fanno sembrare il modello ancora più avanzato. "meno intelligenza," Hanno riconosciuto che questa non era l’esperienza che gli utenti dovrebbero aspettarsi.
Anthropic sta implementando diverse modifiche operative per riconquistare la fiducia degli utenti e prevenire future regressioni:
-
Versione di prova interna: Una percentuale maggiore del personale interno dovrà utilizzare appieno le strutture generali del Codice Claude per consentire loro di sperimentare il prodotto come utenti.
-
Pacchetti di valutazione avanzata: La società condurrà ora una serie più ampia di valutazioni basate su modelli e "ablazione" Per ogni sistema, modificare tempestivamente per isolare l’effetto di istruzioni specifiche.
-
Controlli più severi: Sono stati creati nuovi strumenti per facilitare il controllo dei cambiamenti rapidi e i cambiamenti specifici del modello saranno determinati rigorosamente dagli obiettivi previsti.
-
Compensazione dell’abbonato: Per tenere conto dello spreco di token e dei problemi di prestazioni causati da questi bug, Anthropic ha reimpostato i limiti di utilizzo per tutti gli abbonati a partire dal 23 aprile.
L’azienda prevede di utilizzare il suo nuovo prodotto Account @ClaudeDevs su X e argomenti GitHub per fornire una logica più profonda dietro le future decisioni sui prodotti e mantenere un dialogo più trasparente con la base di sviluppatori.















