WIRE Ep. 3 · 25 de abril de 2026 · 11:06

A semana em que o stack de IA foi reprecificado

A IA frontier ficou mais cara enquanto open weights fecharam a diferença — e as empresas agora têm uma escolha real sobre o stack.

Hosts: Host PT

Transcript

HOST

A Anthropic deixou 69 dos seus próprios funcionários negociar num marketplace interno — estilo Craigslist classificado — onde cada oferta, cada contraproposta e cada acordo foi fechado por agentes Claude, sem intervenção humana. Cento e oitenta e seis transações, mais de quatro mil dólares em valor total. O dado que fica: quem tinha o modelo mais fraco saiu perdendo dinheiro real sem saber por quê. Essa assimetria invisível é o fio que une a semana. Hoje: o GPT-5.5 dobra o preço e a NVIDIA coloca dez mil funcionários pra trabalhar nele; o Google compromete quarenta bilhões de dólares na Anthropic enquanto DeepSeek e Alibaba entregam peso aberto que rivaliza com infraestrutura fechada; e Cohere e Aleph Alpha se fundem num player soberano de vinte bilhões.

HOST

O experimento tem nome: Project Deal, conduzido em dezembro de 2025. A Anthropic recrutou 69 funcionários, deu cem dólares de orçamento para cada um e entrevistou cada participante com Claude para capturar o que queriam vender, seus preços de reserva, preferências de compra e estilo de negociação. Essas informações viraram system prompts customizados. Os agentes foram para canais do Slack e negociaram sozinhos — listaram produtos, fizeram ofertas, contra-propuseram, fecharam acordos, sem nenhum sinal para o humano do outro lado intervir. No final da semana, os participantes se encontraram pessoalmente para trocar os bens físicos que seus agentes tinham barganhado: de uma prancha de snowboard a um saco de dezenove bolinhas de ping-pong.

HOST

O sub-estudo encoberto dentro do experimento é a parte que importa para a indústria. A Anthropic rodou quatro instâncias paralelas do mesmo marketplace. Em configurações com Claude Opus 4.5 — o modelo frontier da época — os agentes obtiveram resultados objetivamente melhores para seus donos. Em configurações com Claude Haiku 4.5, o menor da família, os resultados foram piores. E o grupo prejudicado não percebeu que estava perdendo. Esse último ponto é o que transforma um experimento interno de uma semana numa questão regulatória de longo prazo: se a desvantagem é invisível para o principal humano, não há sinal de mercado empurrando organizações para modelos mais fortes. A parte com o agente fraco não tem como reclamar. A parte com o agente forte não tem incentivo para nivelar o campo voluntariamente. Em setores com obrigações fiduciárias — serviços financeiros, contratação governamental — isso deixa de ser uma questão de custo de API e passa a ser uma questão de responsabilidade legal.

HOST

Na semana em que a Anthropic publicou esses resultados, a OpenAI lançou o GPT-5.5. O preço de API, quando chegar ao mercado: cinco dólares por milhão de tokens de entrada e trinta por milhão de saída — exatamente o dobro do GPT-5.4, que custa dois dólares e cinquenta na entrada e quinze na saída. A versão Pro sobe para trinta dólares na entrada e cento e oitenta na saída. O modelo está disponível hoje no Codex e liberando gradualmente para assinantes pagos do ChatGPT; a API formal chega "muito em breve", segundo a OpenAI. A justificativa para o atraso: "implantações em API exigem salvaguardas diferentes e estamos trabalhando com parceiros e clientes nos requisitos de segurança."

HOST

Há uma janela de acesso antes do preço cheio entrar em vigor, e ela é oficialmente sancionada. O líder de developer relations da OpenAI, Romain Huet, declarou em março: "Queremos que as pessoas usem o Codex e a assinatura do ChatGPT onde quiserem — no app, no terminal, no JetBrains, no Xcode, no Claude Code." O Codex CLI é open source. O endpoint de backend é público. Times com assinatura ChatGPT Pro ou Team podem acessar GPT-5.5 hoje por essa rota e rodar avaliações de produção antes de se comprometer com a cobrança por token. O pesquisador Simon Willison publicou um plugin que automatiza a autenticação lendo os tokens armazenados pelo Codex CLI. Quando a API formal abrir, essa janela fecha.

HOST

O que justifica o preço dobrado? O professor Ethan Mollick, da Wharton, teve acesso antecipado e publicou os resultados. Ele deu a mesma tarefa para todos os modelos disponíveis — de o3 até o melhor modelo de peso aberto atual, o Kimi K2.6 — e para o GPT-5.5 Pro: construir uma simulação 3D proceduralmente gerada mostrando a evolução de uma cidade portuária de 3000 a.C. até 3000 d.C. O GPT-5.5 Pro completou a tarefa em vinte minutos. O GPT-5.4 Pro levou trinta e três. Os modelos concorrentes geraram substituições estáticas de edifícios ao longo do tempo — não evolução de cidade. Só o GPT-5.5 Pro modelou emergência sistêmica.

HOST

No segundo teste, Mollick entregou ao Codex uma pasta de uma década de arquivos brutos de pesquisa sobre crowdfunding — em STATA, CSV, XLS e Word — que nunca tinham sido publicados. Quatro prompts depois, o Codex entregou um paper acadêmico completo com revisão de literatura, hipótese nova e análise estatística sofisticada. As citações eram reais. A estatística era real. Mollick avaliou o resultado como equivalente a um projeto forte de segundo ano de PhD — "ficaria muito feliz se esse paper fosse o resultado de um projeto de segundo ano de doutorado." O modelo tem gaps — Mollick chama o frontier de "irregular" — mas a curva de capacidade é verificável.

HOST

A NVIDIA resolve a equação de custo do lado da infraestrutura. A empresa implantou GPT-5.5 via Codex para todos os seus mais de dez mil funcionários, rodando nos sistemas rack-scale GB200 NVL72 — hardware que entrega trinta e cinco vezes menos custo por milhão de tokens e cinquenta vezes mais tokens por segundo por megawatt em relação a sistemas da geração anterior. A TI da NVIDIA provisionou uma máquina virtual dedicada por funcionário, com política de zero retenção de dados e acesso à produção somente-leitura via linha de comando. Engenheiros reportam ciclos de debug que levavam dias fechando em horas; experimentos de semanas rodando da noite para o dia em codebases complexos com múltiplos arquivos. A implantação cobre engenharia, produto, jurídico, marketing, finanças, vendas, RH, operações e programas para desenvolvedores — possivelmente o maior rollout de um único agente frontier em uma única empresa registrado até hoje.

HOST

O capital que sustenta esse ciclo chegou em volume na mesma semana. O Google vai investir até quarenta bilhões de dólares na Anthropic — dez bilhões imediatamente a uma avaliação de trezentos e cinquenta bilhões, com até trinta bilhões adicionais atrelados a metas de desempenho. O pacote inclui um compromisso de cinco gigawatts de capacidade de computação no Google Cloud ao longo de cinco anos, empilhado sobre uma parceria anterior com a Broadcom que um filing de securities colocou em três vírgula cinco gigawatts de TPUs a partir de 2027. A Amazon adicionou mais cinco bilhões na mesma semana — parte de um acordo maior sob o qual a Anthropic deve comprometer até cem bilhões por aproximadamente cinco gigawatts de capacidade ao longo do tempo. A Anthropic também fechou um acordo separado de capacidade de datacenter com a CoreWeave. A empresa agora detém compromissos de múltiplos gigawatts de dois dos três hyperscalers simultaneamente.

HOST

A estrutura que emerge não tem precedente direto no setor. O Google compete com a Anthropic na camada de modelos via Gemini. Fornece os TPUs que sustentam a inferência do Claude. E agora detém a maior posição de investidor único na empresa — com visibilidade sobre o roadmap técnico e alavancagem de precificação sobre a estrutura de custos do concorrente. Para arquitetos de IA avaliando risco de dependência de fornecedor, isso não é mais só uma questão de gasto em nuvem. É uma questão de governança.

HOST

A contraposição ao mercado fechado chegou em peso aberto. A DeepSeek lançou o V4-Pro — um trilhão e seiscentos bilhões de parâmetros totais, quarenta e nove bilhões ativos, arquitetura mixture-of-experts — e o V4-Flash, com duzentos e oitenta e quatro bilhões totais e treze bilhões ativos. Ambos com código aberto e API disponível hoje. O V4-Pro reivindica estado da arte em modelos abertos em Math, STEM e coding, com paridade afirmada frente aos melhores sistemas fechados. Em conhecimento de mundo, o V4-Pro perde só para o Gemini-3.1-Pro entre todos os modelos atuais. Contexto de um milhão de tokens é agora o padrão em todos os serviços oficiais da DeepSeek — o que a maioria dos concorrentes proprietários cobra como tier premium. Os modelos deepseek-chat e deepseek-reasoner estão descontinuados, com sunset marcado para 24 de julho de 2026. Os resultados de benchmark são auto-relatados — verificação independente deve aparecer nos próximos dias — mas os pesos estão abertos para a comunidade confirmar.

HOST

O Alibaba foi na mesma direção, com uma eficiência que reescreve a equação de infraestrutura. O Qwen3.6-27B é um modelo denso de vinte e sete bilhões de parâmetros que pontua 77,2% no SWE-bench Verified — superando o predecessor Qwen3.5-397B-A17B, que marcou 76,2% mas pesava oitocentos e sete gigabytes. O novo modelo pesa cinquenta e cinco vírgula seis gigabytes. Na quantização Q4_K_M, cabe em dezesseis vírgula oito gigabytes — uma única GPU de consumo. O pesquisador Simon Willison mediu vinte e cinco vírgula cinquenta e sete tokens por segundo rodando localmente com llama.cpp. O modelo usa uma arquitetura híbrida Gated DeltaNet com janela de contexto nativa de 262 mil tokens, extensível a um milhão. Licença Apache 2.0, sem restrições de uso. Uma redução de 14,5 vezes no tamanho de arquivo entre dois flagships de coding open-weight consecutivos, com vitória no benchmark líder de coding agêntico. Times que estavam avaliando infraestrutura multi-nó para agentes de coding devem rodar o Qwen3.6-27B antes de renovar contratos.

HOST

A semana fecha com um movimento estrutural no mercado europeu. Cohere, do Canadá, e Aleph Alpha, da Alemanha, anunciaram fusão numa empresa de IA empresarial avaliada em vinte bilhões de dólares. O round Series E de seiscentos milhões de dólares é ancorado pelo Schwarz Group — maior varejista da Europa, operador do Lidl e do Kaufland em trinta e dois países e já investidor existente da Aleph Alpha. O deal ainda não fechou e está sujeito a revisão regulatória. A tese é direta: um punhado de laboratórios americanos — OpenAI, Anthropic, Google DeepMind, Meta — domina a IA comercial. A fusão quer dar a empresas e governos uma alternativa com soberania de dados embutida e conformidade com o AI Act da UE desde a base, não retroativa. A Aleph Alpha já opera um assistente governamental com oitenta mil usuários no setor público alemão. Um documento de requisitos de engenharia automotivo com processamento quarenta por cento mais rápido. Uma busca corporativa que cortou tempo de pesquisa em noventa por cento. Quando o maior varejista da Europa escreve um cheque de seiscentos milhões para financiar uma alternativa soberana de IA, isso é uma aposta operacional — não uma posição de portfólio.

HOST

O quadro da semana: o frontier ficou mais caro. GPT-5.5 dobrou o preço de API. O Project Deal da Anthropic demonstrou empiricamente que o gap entre tiers de modelo produz resultados desiguais, invisíveis para o usuário final. Ao mesmo tempo, a pressão na direção contrária nunca foi maior: DeepSeek V4-Pro e Qwen3.6-27B entregam paridade de benchmark em peso aberto com uma fração do footprint que existia três meses atrás. Para CTOs com decisões de build-versus-buy na mesa esta semana: os gaps de capacidade são reais, mas as opções de peso aberto que não existiam no primeiro trimestre existem agora. Esta é a semana para revisar a política de tier de modelos da sua organização — e o risco de dependência de fornecedor que você está aceitando sem perceber.

HOST

Na sexta-feira, na The Edition, João e Maria aprofundam o que a curva de preço do GPT-5.5 e o DeepSeek V4 significam para o orçamento de modelos de 2026 — mais o paper de RL do Mila que discretamente encerrou um debate de um ano sobre treinamento. Enquanto isso, o artigo completo sobre o Project Deal da Anthropic está no site. Vale a leitura até o último parágrafo.

Transcript

Receba o sinal antes do ruído.