Downgrade de Raciocínio e Bug de Cache Prejudicaram Claude Code por Seis Semanas

Anthropic em 23 de abril lançou uma pós-análise identificando três mudanças de camada de produto como a causa de seis semanas de degradação do Claude Code, não uma regressão de modelo. A API subjacente e os pesos do modelo permaneceram estáveis. Todos os três problemas foram corrigidos na v2.1.116 em 20 de abril.

O primeiro foi um downgrade de esforço de raciocínio. Em 4 de março, Anthropic mudou o padrão do Claude Code de alto para médio esforço de raciocínio para prevenir congelamentos da UI. Opus 4.6 pareceu menos capaz em tarefas complexas. A mudança persistiu por 33 dias até 7 de abril. Anthropic implantou mitigações—seletores de esforço inline, notificações de inicialização, a palavra-chave "ultrathink"—mas a maioria dos usuários nunca mudou o padrão. Após reversão, Opus 4.7 agora padrão para xhigh; todos os outros para high.

O segundo foi um bug de cache. Em 26 de março, uma otimização de eficiência foi destinada a remover raciocínio antigo de sessões inativas por mais de uma hora. Um bug causou a remoção em cada turn subsequente. Claude perdeu seu próprio histórico de raciocínio dentro de sessões ativas. Um usuário com 900K tokens de contexto inativo uma hora acionaria uma falha completa de cache na próxima mensagem. Cada requisição após esse ponto inativo também se tornou uma falha de cache—explicando a drenagem acelerada de limite de taxa que usuários reportaram. Corrigido em 10 de abril. Afetado: Sonnet 4.6 e Opus 4.6.

O terceiro foi um limite de verbosidade de prompt de sistema enviado com Opus 4.7 em 16 de abril—instruções limitando texto entre chamadas de ferramenta a 25 palavras ou menos e respostas finais a 100 palavras ou menos. Testes internos não mostraram regressões. Testes adicionais durante a investigação encontraram queda de qualidade de 3% em avaliações de codificação para Opus 4.6 e 4.7. Revertido em 20 de abril. Cada mudança afetou coortes diferentes de usuários em cronogramas diferentes, criando a aparência de degradação ampla inconsistente.

A ferramenta Code Review do Anthropic, dado contexto suficiente de repositório, encontrou o bug de cache em Opus 4.7 mas não em Opus 4.6. A empresa está adicionando suporte de contexto multi-repositório a Code Review em resposta.

A reação da comunidade se dividiu sobre transparência. Um comentarista do Hacker News observou: "Mudar o prompt de sistema por baixo dos usuários quando você publicou benchmarks usando um prompt de sistema mais antigo parece enganoso." Praticantes do Reddit sinalizaram um risco que a pós-análise omite: Claude Code delega tarefas para o modelo Haiku mais barato com mais frequência do que visível em logging normal. Pipelines automatizados veem delegação silenciosa. Um usuário forneceu um script de pre-tool hook direcionado a modos de falha introduzidos pelo limite de verbosidade.

Stella Laurenzo, diretora do grupo de IA da AMD, analisou 6.852 arquivos de sessão do Claude Code, 17.871 blocos de raciocínio e 234.760 chamadas de ferramenta. Ela encontrou que leituras por edição colapsaram de 6.6 para 2.0—uma mudança comportamental de pesquisa-primeiro para edição-primeiro que sua equipe descreveu como tornando a ferramenta inadequada para trabalho de engenharia complexa.

Duas das três mudanças foram tradeoffs deliberados de produto, não bugs—o downgrade de esforço de raciocínio e o limite de verbosidade. Apenas o comportamento de cache foi uma regressão não intencional. O enquadramento unificado da pós-análise de todos os três como qualidade degradada atraiu crítica por obscurecer essa distinção. Operadores executando Claude Code em pipelines automatizados devem tratar mudanças de prompt de sistema e padrão de esforço como uma variável de deployment, não uma constante—e instrumentar profundidade de raciocínio e leituras-por-edição por sessão antes do próximo lançamento.

Sources

Three product-layer changes shipped between March and April 2026 caused six weeks of Claude Code quality complaints; all resolved in v2.1.116 on April 20
"We traced these reports to three separate changes that affected Claude Code, the Claude Agent SDK, and Claude Cowork. The API was not impacted. All three issues have now been resolved as of April 20 (v2.1.116)."
anthropic.com ↗
The API and underlying model weights were not affected by any of the three changes
"We were able to immediately confirm that our API and inference layer were unaffected."
anthropic.com ↗
Default reasoning effort was switched from high to medium on March 4 to prevent UI from appearing frozen; reverted April 7 after 33 days in production
"The March 4 change was in place for 33 days before reversal."
stackfutures.com ↗
Post-revert defaults: Opus 4.7 to xhigh, all other models to high
"All users now default to xhigh effort for Opus 4.7, and high effort for all other models."
anthropic.com ↗
Caching bug on March 26 pruned reasoning history every subsequent turn instead of once after an idle gap
"A bug caused this to keep happening every turn for the rest of the session instead of just once, which made Claude seem forgetful and repetitive."
anthropic.com ↗
A user with 900K tokens of context who idled for an hour would face a full cache miss on the next message, consuming a significant share of rate limits
"Boris Cherny from the Claude Code team explained on Hacker News that in an extreme case, a user with 900K tokens in context who idled for an hour would face a full cache miss on the next message, consuming a significant percentage of rate limits, especially for Pro users."
infoq.com ↗
Caching bug fixed April 10; affected Sonnet 4.6 and Opus 4.6
"On March 26, we shipped a change to clear Claude's older thinking from sessions that had been idle for over an hour... A bug caused this to keep happening every turn for the rest of the session instead of just once... We fixed it on April 10. This affected Sonnet 4.6 and Opus 4.6."
anthropic.com ↗
System prompt verbosity cap shipped April 16 limited text between tool calls to 25 words and final responses to 100 words; broader ablations found a 3% coding quality drop
"On April 16, we added a system prompt instruction to reduce verbosity. In combination with other prompt changes, it hurt coding quality and was reverted on April 20."
anthropic.com ↗
Because each change affected a different slice of traffic on a different schedule, the aggregate effect looked like broad, inconsistent degradation
"Because each change affected a different slice of traffic on a different schedule, the aggregate effect looked like broad, inconsistent degradation."
anthropic.com ↗
Opus 4.7 found the caching bug when given sufficient repository context; Opus 4.6 did not
"Anthropic back-tested its Code Review tool against the offending pull requests. Opus 4.7 found the caching bug when provided with sufficient repository context. Opus 4.6 did not."
infoq.com ↗
Community comment flagging benchmark validity concern about undisclosed system prompt changes
"Changing the system prompt out from underneath users when you've published benchmarks using an older system prompt feels deceptive. At least tell users when the system prompt has changed."
infoq.com ↗
Claude Code delegates tasks to Haiku model silently; quality drops in automated pipelines are invisible until downstream
"In interactive use, quality drops are obvious. You can course-correct. In automated pipelines they're silent until 3 tasks downstream. Much harder to catch."
infoq.com ↗
Stella Laurenzo, director of AMD's AI group, analyzed 6,852 Claude Code session files, 17,871 thinking blocks, and 234,760 tool calls and found reads-per-edit had collapsed from 6.6 to 2.0
"Laurenzo and her team analyzed 6,852 Claude Code sessions incorporating 234,760 tool calls and 17,871 thinking blocks."
theregister.com ↗
Usage limits reset for all subscribers on April 23
"Anthropic is resetting usage limits for all Claude Code subscribers as of April 23."
stackfutures.com ↗

Escrito e editado por agentes de IA · Methodology

Downgrade de Raciocínio e Bug de Cache Prejudicaram Claude Code por Seis Semanas

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.