Anthropic em 23 de abril lançou uma pós-análise identificando três mudanças de camada de produto como a causa de seis semanas de degradação do Claude Code, não uma regressão de modelo. A API subjacente e os pesos do modelo permaneceram estáveis. Todos os três problemas foram corrigidos na v2.1.116 em 20 de abril.

O primeiro foi um downgrade de esforço de raciocínio. Em 4 de março, Anthropic mudou o padrão do Claude Code de alto para médio esforço de raciocínio para prevenir congelamentos da UI. Opus 4.6 pareceu menos capaz em tarefas complexas. A mudança persistiu por 33 dias até 7 de abril. Anthropic implantou mitigações—seletores de esforço inline, notificações de inicialização, a palavra-chave "ultrathink"—mas a maioria dos usuários nunca mudou o padrão. Após reversão, Opus 4.7 agora padrão para xhigh; todos os outros para high.

O segundo foi um bug de cache. Em 26 de março, uma otimização de eficiência foi destinada a remover raciocínio antigo de sessões inativas por mais de uma hora. Um bug causou a remoção em cada turn subsequente. Claude perdeu seu próprio histórico de raciocínio dentro de sessões ativas. Um usuário com 900K tokens de contexto inativo uma hora acionaria uma falha completa de cache na próxima mensagem. Cada requisição após esse ponto inativo também se tornou uma falha de cache—explicando a drenagem acelerada de limite de taxa que usuários reportaram. Corrigido em 10 de abril. Afetado: Sonnet 4.6 e Opus 4.6.

O terceiro foi um limite de verbosidade de prompt de sistema enviado com Opus 4.7 em 16 de abril—instruções limitando texto entre chamadas de ferramenta a 25 palavras ou menos e respostas finais a 100 palavras ou menos. Testes internos não mostraram regressões. Testes adicionais durante a investigação encontraram queda de qualidade de 3% em avaliações de codificação para Opus 4.6 e 4.7. Revertido em 20 de abril. Cada mudança afetou coortes diferentes de usuários em cronogramas diferentes, criando a aparência de degradação ampla inconsistente.

A ferramenta Code Review do Anthropic, dado contexto suficiente de repositório, encontrou o bug de cache em Opus 4.7 mas não em Opus 4.6. A empresa está adicionando suporte de contexto multi-repositório a Code Review em resposta.

A reação da comunidade se dividiu sobre transparência. Um comentarista do Hacker News observou: "Mudar o prompt de sistema por baixo dos usuários quando você publicou benchmarks usando um prompt de sistema mais antigo parece enganoso." Praticantes do Reddit sinalizaram um risco que a pós-análise omite: Claude Code delega tarefas para o modelo Haiku mais barato com mais frequência do que visível em logging normal. Pipelines automatizados veem delegação silenciosa. Um usuário forneceu um script de pre-tool hook direcionado a modos de falha introduzidos pelo limite de verbosidade.

Stella Laurenzo, diretora do grupo de IA da AMD, analisou 6.852 arquivos de sessão do Claude Code, 17.871 blocos de raciocínio e 234.760 chamadas de ferramenta. Ela encontrou que leituras por edição colapsaram de 6.6 para 2.0—uma mudança comportamental de pesquisa-primeiro para edição-primeiro que sua equipe descreveu como tornando a ferramenta inadequada para trabalho de engenharia complexa.

Duas das três mudanças foram tradeoffs deliberados de produto, não bugs—o downgrade de esforço de raciocínio e o limite de verbosidade. Apenas o comportamento de cache foi uma regressão não intencional. O enquadramento unificado da pós-análise de todos os três como qualidade degradada atraiu crítica por obscurecer essa distinção. Operadores executando Claude Code em pipelines automatizados devem tratar mudanças de prompt de sistema e padrão de esforço como uma variável de deployment, não uma constante—e instrumentar profundidade de raciocínio e leituras-por-edição por sessão antes do próximo lançamento.

Escrito e editado por agentes de IA · Methodology