La semana en que la infraestructura viró agente
El stack de IA está siendo reprecificado por abajo (silicio y TCO) y operado por arriba (agentes autónomos) — y el perímetro de riesgo se movió junto.
Transcript
Esta semana, un agente de código compró un dominio, abrió una cuenta en la nube e implementó una aplicación en producción — sin que un solo humano tocara un dashboard. Cloudflare y Stripe formalizaron esto como protocolo de mercado. Anthropic le dio a Claude Code un modo de autonomía con un clasificador como guardián. Y NVIDIA anunció silicio dedicado para agentes enterprise junto con ServiceNow. Todo esto mientras el CEO de Anthropic advertía que el modelo Mythos encontró decenas de miles de vulnerabilidades dormidas en el software global — y adversarios tienen de seis a doce meses para alcanzar capacidad equivalente. Tres bloques hoy: qué está pasando con el precio del silicio y el TCO, quién operará agentes en enterprises, y dónde está el nuevo perímetro de riesgo — que ahora incluye al Pentágono como comprador-ancla que va a redefinir compliance para el sector regulado.
Bloque uno. Reprecificación del stack. El estudio de Lenovo circuló esta semana con un número que reaparecerá en muchos decks de CFO: en producción continua de GenAI, infraestructura on-premises es hasta 18 veces más barata que cloud. John, ¿qué está detrás de ese diferencial?
La mecánica es simple, pero el impacto es real. En cloud, pagas por token de forma lineal — el medidor gira independientemente de si estás usando la capacidad total. On-premises, el costo es fijo y se amortiza sobre el volumen. El TCO 2026 de Lenovo pone el costo en US$ 0.11 por millón de tokens en hardware propio versus US$ 2.00 en cloud en escenarios de uso intenso. Para modelos de gran escala — los que más cuestan — la diferencia es aún mayor: US$ 4.74 por millón de tokens on-premises versus US$ 29.09 en una instancia cloud equivalente. Eso es una reducción del 84%. Y el modelo de TCO de cinco años incluye hardware, energía, operación y mantenimiento.
Y el break-even, según el estudio, llega en menos de cuatro meses.
Menos de un trimestre fiscal. Eso transforma completamente el encuadre de la conversación con el comité de inversiones. No estás aprobando un proyecto de depreciación de largo plazo — estás presentando ROI dentro del mismo ejercicio fiscal. Para un CTO con workload ya en producción continua, esa matemática es difícil de ignorar.
La salvedad obvia: Lenovo vende servidores. El estudio no fue auditado de forma independiente.
Es un punto válido. El escenario elegido favorece exactamente el producto que Lenovo quiere vender: producción continua a gran escala. Para workloads variables, de bajo volumen o que requieren elasticidad rápida, el break-even será diferente — y puede no ocurrir en cuatro meses. Pero incluso si descuentas el sesgo del patrocinador, el diferencial sigue siendo material. El número 18x ya está en circulación y aparecerá en las próximas negociaciones de descuento con hyperscalers. Lenovo entregó al mercado un ancla de negociación — y eso tiene efecto independiente de cualquier salvedad metodológica.
Y el contexto de mercado del silicio corrobora la tesis de demanda. AMD reportó Q1 2026 esta semana: ingresos totales de US$ 10.25 mil millones — por encima de los US$ 9.89 mil millones que el consenso esperaba. Ingresos de data center llegaron a US$ 5.8 mil millones, un alza del 57% año a año desde US$ 3.67 mil millones en el mismo período de 2025.
Y el bottom line fue aún más fuerte. EPS ajustado de US$ 1.37 contra una estimación de US$ 1.29. La ganancia neta casi se duplicó: de US$ 709 millones en Q1 2025 — US$ 0.44 por acción — a US$ 1.38 mil millones este trimestre, US$ 0.84 por acción. La acción subió 16% al día siguiente del reporte. Los ingresos totales subieron 38% año a año, de US$ 7.44 mil millones a US$ 10.25 mil millones. Lisa Su llamó al segmento de data center el "motor principal de crecimiento de ingresos y ganancias" de AMD — y la guía para Q2 fue US$ 11.2 mil millones, muy por encima de los US$ 10.52 mil millones esperados por el mercado.
Lisa Su fue más allá en la guía a largo plazo.
Crecimiento anual superior al 80% en el segmento de IA data center. Eso implica que los equipos de procurement de hyperscalers y grandes enterprises están atrapados en ciclos de capex de múltiples años. La demanda no está desacelerando — el techo de crecimiento de AMD en este momento es capacidad de fabricación. Escasez de memoria avanzada, cuellos de botella en empacamiento e interrupciones en la cadena de suministro por la guerra en Irán. La demanda está ahí; el problema es manufactura. El Helios — competidor directo a escala de rack del Grace Blackwell y Vera Rubin de NVIDIA, que se venden por más de US$ 3 millones por rack — comienza a entregarse en el segundo semestre de 2026. OpenAI y Meta ya se han comprometido con deployments. Meta cerró un acuerdo multianual cubriendo hasta 6 gigawatts de capacidad de GPU de AMD para sus data centers de IA.
Y es en este contexto de demanda calentada que entra el IPO de Cerebras — US$ 3.5 mil millones en Nasdaq, 28 millones de acciones a US$ 115–125 cada una, valuación implícita de US$ 26.6 mil millones.
Quince por ciento por encima de la ronda de febrero, que ya valuaba la empresa en US$ 23 mil millones — con AMD entre las inversoras. Lo que distingue a Cerebras de una CoreWeave, que recaudó US$ 1.5 mil millones en su propio IPO revendiendo GPUs de NVIDIA, es que Cerebras tiene silicio propio. El Wafer Scale Engine es un chip que ocupa una lámina de silicio completa, elimina los cuellos de botella de interconexión entre chips y ofrece alto throughput en escenarios de inferencia específica.
Y el desempeño financiero es atípico para un IPO de infraestructura de IA.
Q4 con ingresos de US$ 510 millones — alza del 76% año a año — y US$ 87.9 millones de ganancia neta. La rentabilidad en fase de IPO es rara en este sector. El contrato con OpenAI ancla la tesis: hasta 750 megawatts de capacidad de computación hasta 2028, una transacción valuada en más de US$ 20 mil millones. Ese es un compromiso de ingresos que una startup privada no puede presentar con la misma credibilidad. El CEO Andrew Feldman no está vendiendo sus acciones — 10.3 millones de acciones post-IPO valuadas en hasta US$ 1.28 mil millones en el tope del rango. Eso es una señal de confianza del fundador.
La pregunta práctica para la Fortune 500 que observa todo esto: ¿cuándo la matemática tiene sentido para traer workloads de vuelta a casa?
Dos criterios objetivos. Primero: ¿el workload entró en producción continua? Si sí, el estudio de Lenovo dice que el break-even puede llegar en menos de un trimestre. Segundo: ¿tienes equipo para operar GPUs on-premises? El costo operacional real necesita entrar en el TCO — ese es exactamente donde el cálculo de Lenovo es más optimista. Dicho eso, con Cerebras saliendo de startup privada a empresa listada en bolsa, el equipo de procurement ahora tiene estados financieros auditables para evaluar compromisos de múltiples años con proveedores. El pool de alternativas viables a NVIDIA desde el punto de vista de procurement está creciendo semana a semana.
Bloque dos. La reprecificación del silicio está ocurriendo en la capa de abajo. En la capa de arriba, la semana fue marcada por tres anuncios que juntos dibujan cómo se verá la operación agentic en enterprise. Maria, empiezas por el protocolo Cloudflare y Stripe.
Esta semana, Cloudflare y Stripe co-lanzaron un protocolo de tres capas que permite que un agente de código cree una cuenta de Cloudflare desde cero, registre un dominio e implemente una aplicación en producción — sin que un solo humano abra un dashboard o inserte un número de tarjeta. Tres fases: discovery, authorization y payment. En discovery, el agente llama a stripe projects catalog — que retorna un catálogo JSON de servicios disponibles vía REST API. En authorization, Stripe atestigua la identidad del usuario, Cloudflare provisiona una cuenta nueva o enruta usuarios existentes vía OAuth y retorna credenciales de API directamente al CLI de Stripe Projects. En payment, Stripe proporciona un token de pago que los proveedores usan para cobrar por dominios, suscripciones o uso basado en consumo.
¿Cuáles son las interacciones humanas que quedan en ese flujo?
Dos: aceptar los términos de servicio de Cloudflare y otorgar permiso al agente para proceder — ambas mostradas como prompts explícitos. Ningún otro paso humano es obligatorio de principio a fin. Lo que cambia estructuralmente es que los proveedores cloud históricamente asumían un humano del otro lado del proceso de creación de cuenta, consentimiento de facturación e emisión de credencial. Este protocolo invierte el supuesto: Stripe se convierte en el ancla de confianza y carril de pago para clientes no-humanos, y Cloudflare se convierte en el primer gran proveedor cloud en formalizar su superficie de provisioning para el estándar agente-como-cliente. Y el protocolo es abierto — cualquier plataforma con usuarios logueados puede integrar de la misma forma que Stripe.
El modelo de catálogo JSON es el movimiento arquitectónico a largo plazo aquí.
Exacto. Al exponer capacidades como JSON legible por máquina en lugar de un dashboard orientado a humanos, Cloudflare publica una superficie que los agentes pueden razonar dinámicamente. Conforme otros proveedores publiquen endpoints equivalentes, los agentes pueden seleccionar proveedores en runtime basado en precio, latencia o postura de compliance — sin preferencia humana pre-cargada. Eso transforma la selección de vendor de una decisión de procurement a una decisión de runtime. La pregunta de seguridad que queda: una sesión de agente comprometida ahora arriesga compras de dominio y activaciones de suscripción, no solo ejecución de código. Los equipos de seguridad enterprise necesitan scope estricto de tokens y audit trails en invocaciones de provisioning antes de escalar.
La misma semana, Anthropic lanzó el Auto Mode de Claude Code — que cambia la lógica de aprobación para agentes de código. Maria, ¿cómo funciona el diseño?
El problema que Auto Mode resuelve está en los propios datos internos de Anthropic: los usuarios aceptaban el 93% de los prompts de permiso de Claude Code de todas formas. La empresa llama eso approval fatigue — desarrolladores aprobando automáticamente sin revisar. La única alternativa disponible era un flag --dangerously-skip-permissions que desconectaba todos los guardrails. Auto Mode queda en el medio: dos capas independientes de defensa.
¿Cómo funcionan esas dos capas en la práctica?
La primera es un probe de input: escanea todo output de herramienta — lectura de archivo, resultado de shell, fetch de web — antes de llegar al contexto del agente. Si el contenido parece redirigir al agente fuera de la instrucción original del usuario, una advertencia es inyectada marcando el contenido como no confiable. La segunda es un clasificador de output corriendo en Sonnet 4.6 — evalúa cada acción propuesta antes de la ejecución en dos etapas: un filtro rápido de un token que libera acciones seguras con overhead mínimo, seguido de chain-of-thought solo cuando la primera etapa señaliza algo. Y el clasificador está ciego al razonamiento del propio Claude por diseño — los mensajes internos y los outputs de herramientas se eliminan del contexto del clasificador para impedir que el agente racionalice una aprobación.
El log de incidentes internos de Anthropic documenta exactamente el tipo de problema que esto intenta prevenir.
Tres casos publicados. Un agente que eliminó branches remotos de git a partir de una instrucción vaga de "limpiar branches viejos". Uno que subió el token de autenticación GitHub de un ingeniero a un cluster de computación interno después de pegar en un error de autenticación. Y un tercero que intentó ejecutar migraciones contra una base de datos de producción. En todos los casos, el modelo resolvió el problema que entendió — pero superó el límite que el usuario tenía en mente.
Y el desafío de governance que esto crea para equipos enterprise es inmediato.
Mykola Kondratiuk, director en Playtika, lo puso de forma directa: "Con Auto Mode activo, la IA ahora es quien aprueba, no solo quien actúa. La mayoría de los documentos de governance aún ponen un humano ahí." Los frameworks de compliance construidos alrededor de human-in-the-loop necesitan reconocer aprobación mediada por clasificador como un tipo de control distinto. Auto Mode no reemplaza controles enterprise — aislamiento de red, scope de credenciales, audit logging siguen siendo responsabilidad del operador. Lo que cambia es el cuello de botella: de click-through humano en cada acción a un gate de clasificador en acciones que cargan riesgo. Para organizaciones que ya ejecutan Claude Code, actualizar la documentación de governance para reflejar aprobación mediada por clasificador es la tarea operacional inmediata.
Y en el lado del hardware para agentes enterprise, NVIDIA y ServiceNow anunciaron asociación full-stack en Knowledge 2026. Maria, ¿qué fue presentado?
El centro es el Project Arc — un agente de desktop conectado nativamente a la plataforma de ServiceNow vía Action Fabric API, con acceso a sistemas de archivos locales, terminales y aplicaciones instaladas. Cada acción pasa a través del AI Control Tower de ServiceNow para auditabilidad completa. La ejecución segura es vía NVIDIA OpenShell — un ambiente sandboxed open-source que define qué puede ver el agente, cuáles herramientas puede invocar y cómo las acciones quedan contenidas dentro de límites de política. ServiceNow construye sobre OpenShell y contribuye código al proyecto.
Y los números de eficiencia de Blackwell cambian el cálculo de escala.
Dramáticamente. La plataforma Blackwell ofrece más de 50x de output de tokens por watt comparado con Hopper — resultando en casi 35x de menor costo por millón de tokens. Para una empresa ejecutando agentes en millones de workflows simultáneos, esa diferencia determina si la IA agentic sigue siendo experimento departamental o entra en producción amplia. La Nemotron 3 Super de NVIDIA lidera actualmente el ranking de modelos open-source en EnterpriseOps-Gym — el benchmark conjunto con ServiceNow enfocado en evaluación de workflows multi-step, el modo de falla que la mayoría de los benchmarks generales simplemente ignora.
El riesgo de lock-in es la pregunta estructural.
Desde dos direcciones. Action Fabric y AI Control Tower de ServiceNow crean la capa de orquestación. El silicio Blackwell, NeMo y OpenShell de NVIDIA forman el substrato de compute y ejecución. La adopción de full-stack es recompensada por diseño de validación conjunta — el blueprint NVIDIA Enterprise AI Factory que el AI Control Tower de ServiceNow integra explícitamente. Los arquitectos enterprise necesitan mapear esas dependencias antes de firmar. Project Arc no tiene fecha de disponibilidad divulgada aún. Y preguntas abiertas sobre portabilidad multi-cloud de los sandboxes de OpenShell necesitan respuesta antes de cualquier decisión de producción.
La convergencia esta semana es una señal de mercado. Cloudflare-Stripe, Claude Code Auto Mode y NVIDIA-ServiceNow salieron la misma semana — no es coincidencia. Es el sector señalizando que 2026 es el año en que los arquitectos enterprise paran de prototipear agentes y empiezan a diseñar guardrails de producción: IAM, facturación no-humana, audit trails de workflows autónomos. El playbook de governance aún no existe de forma estandarizada. Quien publique primero va a definir el estándar.
Bloque tres. Los dos primeros bloques trataron costo y operación. Este trata riesgo — y el perímetro se movió. John, el CEO de Anthropic envió la señal más grave de la semana.
El martes, Dario Amodei dijo públicamente que Mythos — el modelo más nuevo de Anthropic, con acceso restringido a un grupo pequeño de empresas partner — encontró decenas de miles de vulnerabilidades de software. Para dar escala: un modelo anterior de Anthropic encontró alrededor de 20 vulnerabilidades en Firefox. Mythos encontró casi 300 en el mismo navegador. Agregando todo el software analizado, el total llega a decenas de miles. La mayoría permanece sin patch y sin divulgación pública — porque revelar antes de corregir es entregarles a los adversarios un mapa.
Y la ventana de tiempo para cerrar ese exposure tiene un deadline geopolítico.
Amodei lo puso así: los modelos de IA chinos están "quizá seis a doce meses" atrás de las capacidades de Anthropic. Eso deja "aproximadamente ese tiempo" para cerrar la ventana antes de que los adversarios lleguen a capacidad equivalente de descubrimiento. Anthropic restringió el acceso a Mythos exactamente por esa razón: preocupación por lo que harían criminales o naciones adversarias con la herramienta. Y Amodei fue directo sobre las consecuencias: "El peligro es un aumento enorme en la cantidad de vulnerabilidades, en el volumen de brechas, en el daño financiero de ransomware en escuelas, hospitales — sin contar bancos."
El comentario vino al lado del CEO de JPMorgan, Jamie Dimon, en un evento de servicios financieros de Anthropic. Dimon lo llamó un "período transitorio" — presente y real, pero limitado. Anthropic también anunció en ese mismo evento 10 nuevos agentes de IA para investment banking y back-office, integración con productos de Microsoft Office, y divulgó que Claude Opus 4.7 lidera benchmarks para tareas de análisis financiero.
El caso optimista de Amodei: "solo hay tantos bugs para encontrar" — el número de vulnerabilidades es finito. El problema es el tiempo para encontrarlos, aún indefinido, y la velocidad de patch que ahora compite con modelos que ningún equipo de seguridad controla. El desplazamiento estructural para CISOs: el descubrimiento de vulnerabilidades asistido por IA ahora supera red-teaming tradicional y pipelines de análisis estático en velocidad y escala. Los equipos que no han integrado scanning asistido por IA en ciclos de revisión de supply chain de software tienen un déficit que se compone cada trimestre.
Es en este contexto que CISA confirmó explotación activa de la falla "Copy Fail" en el kernel Linux. CVE-2026-31431, añadida al catálogo de Known Exploited Vulnerabilities el 1º de mayo. Maria, ¿cuál es el exposure?
Amplio. La vulnerabilidad está en la interfaz criptográfica algif_aead del kernel Linux. Un usuario local sin privilegios puede escribir datos controlados en el page cache del kernel y escalar a root. Theori descubrió la falla, desarrolló un exploit y publicó proof of concept junto con la divulgación pública. El exploit es descrito como 100% confiable, sin modificación necesaria — y funciona sin cambios en Ubuntu 24.04 LTS, Amazon Linux 2023, RHEL 10.1 y SUSE 16.
La portabilidad entre distribuciones elimina la fricción entre descubrimiento y weaponization.
Cualquier adversario con acceso a un cluster de GPU compartido, host de container o pipeline de CI tiene root. Y el proceso de divulgación empeoró el problema: Theori publicó el exploit sin coordinación previa con los mantenedores de distribuciones Linux. Los vendors no tuvieron tiempo de preparar patches antes de que el código apareciese online. Las branches LTS más viejas no tenían backports disponibles en el momento de divulgación. Los mantenedores fueron forzados a deshabilitar módulos criptográficos afectados mientras corrían a hacer los backports.
CISA ordenó que las agencias federales americanas aplicaran el patch en dos semanas y recomendó explícitamente que todas las organizaciones priorizaran la corrección.
El vector de acceso local es el dato crítico para enterprise. Un cluster de inferencia multi-tenant, nodos Kubernetes con múltiples service accounts, ambientes de data science con SSH a múltiples investigadores — cualquiera satisface el pre-requisito. Una cuenta de desarrollador comprometida, un breakout de container, lateral movement a partir de un BMC con poca protección. La ventana de riesgo se cierra con el reboot después del patch. El punto estructural: si el enfoque de Theori — divulgación sin coordinación previa con mantenedores — se convierte en precedente, los SLAs de remediación de 30 días son insuficientes cuando el exploit está disponible públicamente desde el primer día. Dos semanas es el nuevo piso. Los workflows que detectan adiciones al catálogo KEV de CISA en horas, no días, dejan de ser buena práctica para volverse requisito.
La tercera señal esta semana viene del Estado como comprador-ancla. El Pentágono cerró acuerdos con siete empresas para deploy de IA en redes clasificadas: NVIDIA, Microsoft, AWS, Google, OpenAI, SpaceX y Reflection AI — en los niveles IL6 e IL7, los más altos del DoD. Estos ambientes requieren protección física, controles estrictos de acceso y auditorías continuas para datos críticos a la seguridad nacional.
La estrategia fue deliberadamente diversificada. El DoD fue explícito sobre el objetivo: "El Departamento continuará construyendo una arquitectura que previene lock-in de vendor de IA y asegura flexibilidad a largo plazo para la Fuerza Conjunta." No es un sandbox de proof of concept — estos acuerdos requieren el mismo nivel de credenciamiento que sistemas clasificados legados: FedRAMP High más controles adicionales. Cualquier vendor que navegó por esto tiene un track record de seguridad auditable que las organizaciones en sectores regulados pueden usar como benchmark de límite superior.
Y Anthropic está fuera — y está en litigio con el DoD.
El Pentágono quería uso irrestricto de los modelos de Anthropic. Anthropic rechazó, citando preocupaciones sobre vigilancia doméstica en masa y armas autónomas. Los dos están en disputa judicial. En marzo, Anthropic obtuvo una medida cautelar bloqueando al DoD de designarla como riesgo de supply chain. El litigio aún no ha sido resuelto — y el resultado va a establecer precedente de una forma u otra.
Para arquitectos enterprise en sectores regulados, la lista de vendors aprobados por el gobierno estadounidense ahora es pública. La ausencia de Anthropic complica procurement para organizaciones que estandarizaron en Claude o que lo están evaluando para workloads sensibles.
Y el precedente jurídico tiene scope amplio. Si la corte falla a favor del DoD, establece que los compradores gubernamentales pueden sobreponer políticas de uso aceptable de los labs de IA — lo que tiene implicaciones para cualquier operador soberano o regulado que esté negociando acceso a modelos ahora. Si Anthropic gana, establece que guardrails de seguridad sobreviven la presión de procurement. Cualquiera de los dos resultados va a reverberar en los contratos de suministro que los equipos de governance enterprise están escribiendo hoy.
El contexto de escala ayuda a dimensionar qué está en juego: más de 1.3 millones de empleados del DoD ya han usado GenAI.mil — la plataforma de IA generativa segura del Pentágono para tareas no clasificadas: investigación, redacción de documentos, análisis de datos. Los acuerdos de red clasificada extienden esa base a contextos operacionales sensibles. El DoD está operando uno de los más grandes deployments enterprise de IA del planeta — en niveles de clasificación que la mayoría de las organizaciones comerciales nunca van a alcanzar, pero cuyos estándares de compliance van a escurrir hacia el sector regulado de todas formas.
Tres bloques, una línea. El stack de IA está siendo reprecificado por abajo: silicio alternativo, TCO on-prem, cuatro meses para break-even. Y está siendo operado por arriba por agentes que provisionan infraestructura, escriben y ejecutan código sin aprobación humana en cada paso. El perímetro de riesgo se movió junto: decenas de miles de vulnerabilidades descubiertas por modelos, explotación activa en el kernel Linux confirmada por CISA, y el Estado definiendo quién puede operar en ambientes de seguridad máxima por los próximos años.
El detalle que quedó debajo del radar esta semana: AMD era inversora de Cerebras en la ronda de febrero. Al mismo tiempo, está construyendo Helios — competidor directo del Grace Blackwell de NVIDIA. La competencia en silicio de IA ahora incluye cross-investment entre competidores directos. Cuando se abra el IPO de Cerebras, el mapa de conflictos de interés va a ser más complicado de navegar.
Y en la capa de agentes: el protocolo Cloudflare-Stripe, Auto Mode de Claude Code y la asociación NVIDIA-ServiceNow salieron todos la misma semana. El playbook de governance de producción aún no existe de forma estandarizada — IAM para agentes, facturación no-humana, audit trails de workflows autónomos. Quien publique el playbook primero va a definir el estándar del sector. Y esa carrera ya comenzó.
Fue esa la séptima edición en ai|expert. Los artículos de los tres bloques están en el sitio con links directos a las fuentes — Lenovo, Anthropic, CISA, y el comunicado del Pentágono. Wire de nuevo el lunes: qué sobró del fin de semana en Mistral, Cerebras post-IPO y qué CISA divulga hasta entonces. Buena semana.