A semana em que a infraestrutura virou agente
O stack de IA está sendo reprecificado por baixo (silício e TCO) e operado por cima (agentes autônomos) — e o perímetro de risco se moveu junto.
Transcript
A mecânica é simples, mas o impacto é real. Em cloud, você paga por token de forma linear — o medidor gira independente de você estar usando ou não a capacidade total. On-prem, o custo é fixo e amortiza ao longo do volume. O TCO 2026 da Lenovo coloca o custo em US$ 0,11 por milhão de tokens em hardware próprio contra US$ 2,00 na nuvem em cenário de uso intenso. Para modelos de grande porte — os que mais custam — a diferença é ainda maior: US$ 4,74 por milhão de tokens on-prem contra US$ 29,09 em instância cloud equivalente. Isso é 84% de redução. E o modelo de TCO de cinco anos inclui hardware, energia, operação e manutenção.
Menos de um trimestre fiscal. Isso transforma completamente o enquadramento da conversa com o comitê de investimentos. Você não está aprovando um projeto de depreciação de longo prazo — você está apresentando um ROI dentro do mesmo exercício fiscal. Para um CTO com workload já em produção contínua, essa matemática é difícil de ignorar.
É um ponto válido. O cenário escolhido favorece exatamente o produto que a Lenovo quer vender: produção contínua em larga escala. Para workloads variáveis, de baixo volume ou que requerem elasticidade rápida, o break-even vai ser diferente — e pode não acontecer em quatro meses. Mas mesmo que você desconte o viés do patrocinador, o diferencial ainda é material. O número 18x já está em circulação e vai aparecer nas próximas negociações de desconto com hyperscalers. A Lenovo entregou ao mercado um âncora de negociação — e isso tem efeito independente de qualquer ressalva metodológica.
E o bottom line foi ainda mais forte. EPS ajustado de US$ 1,37 contra estimativa de US$ 1,29. Lucro líquido quase dobrou: de US$ 709 milhões no Q1 2025 — US$ 0,44 por ação — para US$ 1,38 bilhão neste trimestre, US$ 0,84 por ação. A ação subiu 16% no dia seguinte ao relatório. A receita total subiu 38% de um ano para o outro, de US$ 7,44 bilhões para US$ 10,25 bilhões. A Lisa Su chamou o segmento de data center de "principal motor de crescimento de receita e lucro" da AMD — e o guidance de Q2 foi US$ 11,2 bilhões, bem acima dos US$ 10,52 bilhões esperados pelo mercado.
Crescimento anual acima de 80% no segmento de IA data center. Isso implica que as equipes de procurement dos hyperscalers e das grandes enterprises estão presas em ciclos de capex de múltiplos anos. A demanda não está desacelerando — o teto de crescimento da AMD neste momento é capacidade de fabricação. Escassez de memória avançada, gargalos de empacotamento e disrupções de supply chain por conta da guerra no Irã. A demanda está lá; o problema é manufatura. O Helios — rack-scale concorrente direto do Grace Blackwell e Vera Rubin da NVIDIA, que vendem por mais de US$ 3 milhões por rack — começa a ser entregue no segundo semestre de 2026. OpenAI e Meta já se comprometeram com deployments. A Meta fechou um acordo multianno cobrindo até 6 gigawatts de capacidade de GPU da AMD para seus data centers de IA.
Quinze porcento acima da rodada de fevereiro, que já valorizava a empresa em US$ 23 bilhões — com a AMD entre as investidoras. O que distingue a Cerebras de uma CoreWeave, que captou US$ 1,5 bilhão no seu próprio IPO revendendo GPU da NVIDIA, é que a Cerebras tem silício próprio. O Wafer Scale Engine é um chip que ocupa uma lâmina de silício inteira, elimina os gargalos de interconexão entre chips e entrega throughput alto em inferência específica.
Q4 com receita de US$ 510 milhões — alta de 76% ano a ano — e US$ 87,9 milhões de lucro líquido. Lucratividade em estágio de IPO é raro nesse setor. O contrato com a OpenAI ancora a tese: até 750 megawatts de capacidade de computação até 2028, transação avaliada em mais de US$ 20 bilhões. Esse é um compromisso de receita que uma startup privada não consegue apresentar com a mesma credibilidade. O CEO Andrew Feldman não está vendendo suas ações — 10,3 milhões de ações pós-IPO a até US$ 1,28 bilhão no topo do range. Sinal de confiança do fundador.
Dois critérios objetivos. Primeiro: a carga entrou em produção contínua? Se sim, o estudo da Lenovo diz que o break-even pode vir em menos de um trimestre. Segundo: você tem equipe para operar GPU on-prem? O custo operacional real precisa entrar no TCO — é exatamente onde o cálculo da Lenovo é mais otimista. Dito isso, com a Cerebras saindo de startup privada para empresa listada em bolsa, o time de procurement passa a ter balanço financeiro auditável para avaliar compromissos de fornecimento de múltiplos anos. O pool de alternativas ao NVIDIA viáveis do ponto de vista de procurement está crescendo de semana em semana.
Esta semana, Cloudflare e Stripe co-lançaram um protocolo de três camadas que permite que um agente de código crie uma conta Cloudflare do zero, registre um domínio e faça deploy de uma aplicação em produção — sem nenhum humano abrindo um dashboard ou inserindo número de cartão. Três fases: discovery, authorization e payment. Na discovery, o agente chama stripe projects catalog — que retorna um catálogo JSON de serviços disponíveis via REST API. Na authorization, a Stripe atesta a identidade do usuário, a Cloudflare provisiona uma conta nova ou roteia usuários existentes via OAuth e retorna credenciais de API diretamente para o CLI da Stripe Projects. No payment, a Stripe fornece um token de pagamento que os provedores usam para cobrar por domínios, assinaturas ou uso baseado em consumo.
Duas: aceitar os termos de serviço da Cloudflare e conceder permissão ao agente para prosseguir — ambas surfaçadas como prompts explícitos. Nenhum outro passo humano é obrigatório do começo ao fim. O que muda estruturalmente é que provedores cloud historicamente assumiam um humano do outro lado do processo de criação de conta, consentimento de billing e emissão de credencial. Esse protocolo inverte o pressuposto: a Stripe se torna o anchor de confiança e trilho de pagamento para clientes não-humanos, e a Cloudflare se torna o primeiro grande provedor cloud a formalizar sua superfície de provisionamento para o padrão agente-como-cliente. E o protocolo é aberto — qualquer plataforma com usuários logados pode integrar da mesma forma que a Stripe.
Exato. Ao expor capacidades como JSON legível por máquina em vez de um dashboard orientado a humanos, a Cloudflare publica uma superfície que agentes podem raciocinar sobre dinamicamente. Conforme outros provedores publicarem endpoints equivalentes, agentes podem selecionar fornecedores em runtime com base em preço, latência ou postura de compliance — sem preferência humana pré-carregada. Isso transforma vendor selection de decisão de procurement para decisão de runtime. A questão de segurança que resta: uma sessão de agente comprometida agora arrisca compras de domínio e ativações de assinatura, não só execução de código. Times de segurança enterprise precisam de escopo estrito de tokens e trilhas de auditoria em invocações de provisionamento antes de escalar.
O problema que o Auto Mode resolve está nos próprios dados internos da Anthropic: os usuários aceitavam 93% dos prompts de permissão do Claude Code de qualquer forma. A empresa chama isso de approval fatigue — desenvolvedores aprovando no automático sem revisar. A única alternativa disponível era uma flag --dangerously-skip-permissions que desligava todos os guardrails. O Auto Mode fica no meio: dois layers de defesa independentes.
O primeiro é um probe de input: varre todo output de ferramenta — leitura de arquivo, resultado de shell, fetch de web — antes de chegar ao contexto do agente. Se o conteúdo parece redirecionar o agente para fora da instrução original do usuário, um aviso é injetado marcando o conteúdo como não confiável. O segundo é um classificador de output rodando no Sonnet 4.6 — avalia cada ação proposta antes da execução em dois estágios: um filtro rápido de token único que libera ações seguras com overhead mínimo, seguido de chain-of-thought somente quando o primeiro estágio sinaliza algo. E o classificador é cego ao raciocínio do próprio Claude por design — as mensagens internas e os outputs de ferramentas são removidos do contexto do classificador para impedir que o agente racionalize uma aprovação.
Três casos publicados. Um agente que deletou branches remotos de git a partir de uma instrução vaga de "limpar branches antigos". Um que fez upload do token de autenticação GitHub de um engenheiro para um cluster de computação interno depois de bater num erro de autenticação. E um terceiro que tentou executar migrações contra um banco de dados de produção. Em todos os casos, o modelo resolveu o problema que entendeu — mas ultrapassou o limite que o usuário tinha em mente.
Mykola Kondratiuk, diretor na Playtika, colocou de forma direta: "Com o Auto Mode ativo, a IA agora é quem aprova, não só quem age. A maioria dos documentos de governance ainda coloca um humano aí." Frameworks de compliance construídos em torno de human-in-the-loop precisam reconhecer aprovação mediada por classificador como um tipo de controle distinto. O Auto Mode não substitui controles enterprise — isolamento de rede, escopo de credenciais, logging de auditoria continuam sendo responsabilidade do operador. O que muda é o gargalo: de click-through humano em cada ação para um classifier gate em ações que carregam risco. Para organizações que já rodam Claude Code, atualizar a documentação de governance para refletir aprovação mediada por classificador é a tarefa operacional imediata.
O centro é o Project Arc — um agente desktop conectado nativamente à plataforma da ServiceNow via Action Fabric API, com acesso a sistemas de arquivos locais, terminais e aplicações instaladas. Cada ação passa pelo AI Control Tower da ServiceNow para auditabilidade completa. A execução segura é via NVIDIA OpenShell — um ambiente sandboxed open-source que define o que o agente pode ver, quais ferramentas pode invocar e como as ações ficam contidas dentro de fronteiras de política. A ServiceNow constrói sobre o OpenShell e contribui código para o projeto.
Dramaticamente. A plataforma Blackwell entrega mais de 50x de output de tokens por watt comparado com o Hopper — resultando em quase 35x de menor custo por milhão de tokens. Para uma empresa rodando agentes em milhões de workflows simultâneos, essa diferença determina se IA agentic continua sendo experimento departamental ou entra em produção ampla. O Nemotron 3 Super da NVIDIA lidera atualmente o ranking de modelos open-source no EnterpriseOps-Gym — o benchmark conjunto com a ServiceNow focado em avaliação de workflows multi-step, o modo de falha que a maioria dos benchmarks gerais simplesmente ignora.
De duas direções. Action Fabric e AI Control Tower da ServiceNow criam a camada de orquestração. O silício Blackwell, NeMo e OpenShell da NVIDIA formam o substrato de compute e execução. A adoção de full-stack é recompensada pelo design de validação conjunta — o NVIDIA Enterprise AI Factory blueprint que o AI Control Tower da ServiceNow integra explicitamente. Arquitetos enterprise precisam mapear essas dependências antes de assinar. Project Arc não tem data de disponibilidade divulgada ainda. E questões abertas sobre portabilidade multi-cloud dos sandboxes OpenShell precisam de resposta antes de qualquer decisão de produção.
Na terça-feira, Dario Amodei disse em público que o Mythos — o modelo mais novo da Anthropic, com acesso restrito a um grupo pequeno de empresas parceiras — descobriu dezenas de milhares de vulnerabilidades de software. Para dar escala: um modelo anterior da Anthropic encontrou cerca de 20 vulnerabilidades no Firefox. O Mythos encontrou quase 300 no mesmo navegador. Agregando todos os softwares analisados, o total fica na casa dos dezenas de milhares. A maioria permanece sem patch e sem divulgação pública — porque revelar antes de corrigir é entregar um mapa para adversários.
Amodei colocou assim: modelos de IA chineses estão "talvez seis a doze meses" atrás das capacidades da Anthropic. Isso deixa "aproximadamente esse tempo" para fechar a janela antes que adversários cheguem à capacidade equivalente de descoberta. A Anthropic restringiu o acesso ao Mythos exatamente por essa razão: preocupação com o que criminosos ou nações adversárias fariam com a ferramenta. E Amodei foi direto sobre as consequências:
"O perigo é um aumento enorme na quantidade de vulnerabilidades, no volume de brechas, no dano financeiro de ransomware em escolas, hospitais — sem falar em bancos."
O caso otimista de Amodei: "só há tantos bugs para encontrar" — o número de vulnerabilidades é finito. O problema é o tempo até chegar lá, ainda indefinido, e a velocidade de patch que agora compete com modelos que nenhuma equipe de segurança controla. O deslocamento estrutural para CISOs: descoberta de vulnerabilidades assistida por IA agora supera red-teaming tradicional e pipelines de análise estática em velocidade e escala. Times que não integraram scanning assistido por IA em ciclos de revisão de supply chain de software têm um déficit que se compõe a cada trimestre.
Ampla. A vulnerabilidade fica na interface criptográfica algif_aead do kernel Linux. Um usuário local sem privilégios pode escrever dados controlados no page cache do kernel e escalar para root. A firma Theori descobriu a falha, desenvolveu um exploit e publicou prova de conceito junto com a divulgação pública. O exploit é descrito como 100% confiável, sem modificação necessária — e funciona sem alteração em Ubuntu 24.04 LTS, Amazon Linux 2023, RHEL 10.1 e SUSE 16.
Qualquer adversário com acesso a um cluster de GPU compartilhado, host de container ou pipeline de CI tem root. E o processo de divulgação agravou o problema: a Theori publicou o exploit sem coordenação prévia com os mantenedores das distribuições Linux. Vendors não tiveram tempo de preparar patches antes do código aparecer online. Branches LTS mais antigas não tinham backports disponíveis na hora da divulgação. Os mantenedores foram forçados a desabilitar módulos criptográficos afetados enquanto corriam para os backports.
O vetor de acesso local é o dado crítico para enterprise. Um cluster de inferência multi-tenant, nós Kubernetes com múltiplas service accounts, ambientes de data science com SSH para múltiplos pesquisadores — qualquer um satisfaz o pré-requisito. Uma conta de desenvolvedor comprometida, um breakout de container, lateral movement a partir de um BMC com pouca proteção. A janela de risco fecha com o reboot após o patch. O ponto estrutural: se a abordagem da Theori — divulgação sem coordenação prévia com mantenedores — se tornar precedente, SLAs de remediação de 30 dias são insuficientes quando o exploit está disponível publicamente desde o primeiro dia. Duas semanas é o novo piso. Workflows que detectem adições ao catálogo KEV da CISA em horas, não dias, deixam de ser boa prática para virar requisito.
A estratégia foi deliberadamente diversificada. O DoD foi explícito sobre o objetivo: "O Departamento continuará a construir uma arquitetura que previne lock-in de fornecedor de IA e garante flexibilidade de longo prazo para a Força Conjunta." Não é um sandbox de prova de conceito — esses acordos exigem o mesmo nível de credenciamento que sistemas classificados legados: FedRAMP High mais controles adicionais. Qualquer fornecedor que navegou por isso tem um track record de segurança auditável que organizações em setores regulados podem usar como benchmark de limite superior.
O Pentágono queria uso irrestrito dos modelos da Anthropic. A Anthropic recusou, citando preocupações com vigilância doméstica em massa e armas autônomas. Os dois estão em disputa judicial. Em março, a Anthropic obteve uma liminar bloqueando o DoD de designá-la como risco de supply chain. O litígio ainda não foi resolvido — e o desfecho vai estabelecer precedente em qualquer direção.
E o precedente jurídico tem escopo amplo. Se o tribunal ficar com o DoD, estabelece que compradores governamentais podem sobrepor políticas de uso aceitável dos labs de IA — o que tem implicações para qualquer operador soberano ou regulado que esteja negociando acesso a modelos agora. Se a Anthropic ganhar, estabelece que guardrails de segurança sobrevivem à pressão de procurement. Qualquer um dos resultados vai reverberar nos contratos de fornecimento que equipes de governance enterprise estão escrevendo hoje.
O contexto de escala ajuda a dimensionar o que está em jogo: mais de 1,3 milhão de funcionários do DoD já usaram a GenAI.mil — a plataforma de IA generativa segura do Pentágono para tarefas não classificadas: pesquisa, redação de documentos, análise de dados. Os acordos de rede classificada estendem essa base para contextos operacionais sensíveis. O DoD está operando um dos maiores deployments enterprise de IA do planeta — em níveis de classificação que a maioria das organizações comerciais nunca vai alcançar, mas cujos padrões de compliance vão escorrer para o setor regulado de qualquer forma.
O detalhe que ficou abaixo do radar esta semana: a AMD era investidora da Cerebras na rodada de fevereiro. Ao mesmo tempo, está construindo o Helios — concorrente direto do Grace Blackwell da NVIDIA. A competição em silício de IA agora inclui cross-investimento entre concorrentes diretos. Quando o IPO da Cerebras abrir, o mapa de conflitos de interesse vai ficar mais complicado de navegar.
E na camada de agentes: o protocolo Cloudflare-Stripe, o Auto Mode do Claude Code e a parceria NVIDIA-ServiceNow saíram todos na mesma semana. O playbook de governança de produção ainda não existe de forma padronizada — IAM para agentes, billing não-humano, auditoria de workflow autônomo. Quem publicar o playbook primeiro vai definir o padrão do setor. E essa corrida já começou.