WIRE Ep. 6 · 5 de mayo de 2026 · 11:45

La semana en que los agentes de IA comenzaron a comprar su propia nube

Los agentes ahora están aprovisionando infraestructura en sus propias tarjetas de crédito mientras los CTO reprecian la pila contra un techo de capex impulsado por memoria.

Hosts: Host ES

Transcript

HOST

Esta semana, un agente de IA compró un dominio, abrió una cuenta en Cloudflare e implementó una aplicación en producción—sin tocar la tarjeta de crédito de nadie. Cloudflare y Stripe publicaron un protocolo conjunto que formaliza al agente como cliente directo de infraestructura en nube. Esa es la nueva línea de base. La pregunta que sigue: quién paga—y a qué costo—cuando el agente escala. Hoy en Wire: los $725 mil millones que Big Tech está quemando para responder eso, el chip que Huawei está vendiendo mientras Nvidia espera en la aduana, el agente de SRE que reduce el tiempo de resolución de incidentes en 90%—y el benchmark que te dice que pruebes todo esto antes de darle autonomía al agente.

HOST

El protocolo de Cloudflare y Stripe funciona en tres capas: descubrimiento, autorización y pago. En descubrimiento, el agente llama a `stripe projects catalog` y recibe un catálogo JSON con los servicios disponibles por proveedor. En autorización, Stripe verifica la identidad del usuario, Cloudflare provisiona una cuenta nueva o enruta usuarios existentes vía OAuth y devuelve credenciales de API directamente al CLI. En pago, Stripe proporciona un token que el proveedor usa para cobrar dominios, suscripciones o consumo por uso.

HOST

En la práctica: el agente ejecuta `stripe projects init`, construye la aplicación, llama a `stripe projects add cloudflare/registrar:domain` y llega a una URL de producción en un dominio recién registrado. Los únicos pasos humanos obligatorios son aceptar los términos de servicio de Cloudflare y autorizar al agente a proceder. Eso es todo.

HOST

Los proveedores de nube siempre asumieron un humano del otro lado de la creación de cuenta y emisión de credencial. Este protocolo invierte la premisa: Stripe se convierte en ancla de confianza y canal de pago para clientes no humanos. El movimiento arquitectónico más relevante es el catálogo en JSON—al exponer capacidades de aprovisionamiento como una superficie legible por máquina en lugar de panel de control, Cloudflare publica una superficie sobre la que los agentes pueden razonar y, eventualmente, seleccionar proveedores basándose en precio, latencia o postura de cumplimiento, sin preferencia humana precargada.

HOST

Agente aprovisionando infraestructura en tiempo real es el cambio de comportamiento. Pero hay un cambio de costo sucediendo en paralelo—y favorece a quien tiene hardware propio.

HOST

Un estudio de Lenovo, "On-Premise vs Cloud: GenAI TCO 2026", establece un número duro en esa comparación. Infraestructura dedicada alcanza paridad de costo con la nube en menos de cuatro meses. En producción continua y a escala, la diferencia llega a 18 veces. Costo por millón de tokens generados: aproximadamente $2.00 en la nube versus $0.11 en hardware dedicado. Para modelos grandes, la diferencia llega a $29.09 en la nube versus $4.74 on-prem—una reducción de 84%. El modelo de TCO cubre cinco años, incluido hardware, energía, operación y mantenimiento.

HOST

El mecanismo es matemática de utilización. IA generativa en producción se ejecuta continuamente. En la nube, el costo por token se acumula linealmente independientemente del tiempo ocioso. On-prem, los costos fijos de capital se distribuyen sobre volúmenes crecientes de tokens y el costo unitario colapsa con el tiempo. El equilibrio en menos de cuatro meses sitúa la decisión dentro de un único ciclo presupuestario. La salvedad: es un estudio de Lenovo—Lenovo vende servidores. La metodología es verificable, pero los escenarios modelados son los más favorables para hardware dedicado.

HOST

Lo que contextualiza el argumento de Lenovo es lo que está sucediendo en el otro extremo de la cadena. Google, Amazon, Microsoft y Meta se comprometieron con un total de $725 mil millones en capex para 2026—un salto de 77% desde los $410 mil millones del año anterior. La CFO de Microsoft, Amy Hood, reveló en los resultados del Q1 2026 que $25 mil millones del presupuesto de capex de $190 mil millones de la empresa son directamente atribuibles al aumento de precios de chips de memoria. Ese número superó el consenso de analistas por $38 mil millones.

HOST

Los datos de mercado explican la presión. TrendForce reportó que los precios contractuales de DRAM suben aproximadamente 95% trimestre a trimestre en Q1 2026, con aumentos adicionales proyectados de 58 a 63% para Q2. Se espera que NAND suba de 70 a 75% en Q2. El CEO de Phison declaró que toda la producción de NAND para 2026 ya está comprometida. Los centros de datos consumen 70% de toda la memoria producida en el mundo. Hood advirtió directamente: Microsoft permanece restringida en capacidad en GPUs, CPUs y almacenamiento al menos hasta finales de 2026. Meta elevó su rango de capex para el año completo a entre $125 mil millones y $145 mil millones, citando exactamente esos mismos costos de memoria como razón.

HOST

Mientras los hiperscalers americanos luchan por memoria en el mercado abierto, una empresa está capturando el vacío dejado por el estancamiento regulatorio.

HOST

Huawei proyecta ingresos de chips de IA de $12 mil millones en 2026—arriba 60% desde los $7.5 mil millones en 2025. El aumento es sostenido por órdenes del procesador 950PR, que entró en producción masiva el mes pasado. Una variante actualizada, la 950DT, está programada para Q4.

HOST

Lo que abrió el espacio fue una contradicción regulatoria directa. Washington requiere que los chips Nvidia comprados por clientes chinos se usen exclusivamente en China. Pekín instruyó a las empresas de tecnología chinas a confinar hardware Nvidia a operaciones fuera de China. Los dos mandatos son incompatibles. El resultado: chips H200 con licencias de exportación aprobadas por EE.UU.—Jensen Huang confirmó en marzo de 2026 que Nvidia recibió esas licencias e reinició la producción—están esperando en la aduana china.

HOST

DeepSeek confirmó que aunque su modelo más reciente, v4, fue entrenado en hardware Nvidia, ejecuta inferencia en la 950PR de Huawei. Eso es validación pública que tiene peso con hiperscalers y constructores de modelos en toda China.

HOST

Jensen Huang señaló la implicación sin rodeos: "El día que DeepSeek salga en Huawei primero, eso es un resultado horrible para nuestra nación—podría llevar a un escenario donde modelos de IA alrededor del mundo son desarrollados y se ejecutan mejor en hardware no americano."

HOST

Morgan Stanley proyecta el mercado chino de chips de IA en $67 mil millones hacia 2030, con proveedores domésticos abasteciendo aproximadamente 86% de esa demanda. Para cualquier empresa con operaciones en China—joint venture, subsidiaria o inquilino de un hiperscaler local—Huawei ya es la superficie de compute predeterminada. CANN, el equivalente doméstico de CUDA, aún se queda materialmente atrás en madurez del ecosistema; la migración es un proyecto de múltiples trimestres para equipos que construyeron sobre CUDA.

HOST

Y aún del lado de la demanda: el Pentágono firmó acuerdos con siete empresas para el despliegue de IA en redes clasificadas en los niveles Impact Level 6 y 7—las clasificaciones más altas del Departamento de Defensa. Los siete acreditados: Nvidia, Microsoft, AWS, Google, OpenAI, SpaceX y Reflection AI. Anthropic fue excluida después de rechazar el uso sin restricciones de sus modelos, citando preocupaciones sobre vigilancia doméstica masiva y armas autónomas. El litigio sigue activo; Anthropic obtuvo una orden preliminar en marzo bloqueando al DoD de designarla riesgo de cadena de suministros. Más de 1.3 millones de servidores del Pentágono ya usan GenAI.mil para tareas no clasificadas. Los acuerdos IL6 e IL7 extienden ese universo a contextos operacionales sensibles.

HOST

Agentes comprando cuentas en la nube, acreditación militar confirmando que el buildout no se está desacelerando. El siguiente punto de datos cierra el circuito operacional: qué hacen esos agentes después de que la infraestructura está instalada.

HOST

NeuBird presentó en InfoQ un panel con ingenieros de Amazon, Grainger y Storytel. Su agente, Hawkeye—descrito por la empresa como el primer agente SRE de IA del mundo—ingiere telemetría de logs, métricas, traces e historial de incidentes simultáneamente y razona sobre esos flujos para identificar causa raíz sin triage humano. Se conecta a las herramientas que los equipos ya usan: Datadog, Splunk, Prometheus, PagerDuty, ServiceNow.

HOST

Rohit Dhawan de Amazon describió el problema que resuelve: tickets fluyendo a través de múltiples equipos con 40 a 50 comentarios acumulados en la escalada. El problema no es falta de alertas. Es volumen sin contexto ranqueado. Hawkeye usa escalada basada en confianza: actúa autónomamente por debajo de un umbral de confianza, hace handoff estructurado a humanos por encima del mismo.

HOST

El reclamo de ROI es corte de hasta 90% en MTTR. Evidencia específica de clientes: DeepHealth describe un incidente reciente resuelto en minutos versus lo que habrían sido horas de investigación manual. Model Rocket reporta problemas críticos que anteriormente tomaban días ahora resueltos en minutos.

HOST

Y aquí viene el contrapeso necesario para todo lo que hemos cubierto hoy. Antes de poner a cualquier agente a ejecutar runbook de producción o provisionar una cuenta en la nube, hay un punto de datos de investigación de esta semana que no puede ser ignorado.

HOST

Sailesh Panda, Pritam Kadasi, Abhishek Upperwal y Mayank Singh probaron 14 modelos en 55 datasets con un benchmark directo: el modelo recibe un algoritmo aritmético paso a paso, con dependencias entre variables intermedias, y dos inputs numéricos—y debe devolver el valor final calculado. La precisión de primera respuesta cae de 61% en algoritmos de 5 pasos a 20% en algoritmos de 95 pasos.

HOST

Esto no es un edge case de un modelo malo. Son 14 modelos probados. Los modos de fallo documentados: respuestas prematuras, respuestas faltantes, auto-corrección después de error inicial, traces sub-ejecutados y pasos alucinados más allá de lo que el algoritmo especifica. Para quien está evaluando despliegue agentic: pipelines de ETL, listas de verificación de conformidad, runbooks de DevOps, reconciliación financiera—todos estos procesos tienen estructura análoga a la del benchmark. Las puntuaciones en MMLU o GSM8K son la señal equivocada para evaluar confiabilidad procedural.

HOST

Acción mínima antes de aprobar cualquier despliegue agentic: incluir pruebas de ejecución procedural que correspondan a la cuenta de pasos y estructura de dependencias de tus flujos de trabajo reales. El benchmark de leaderboard no cubre eso.

HOST

Fue esta la Wire de esta semana en ai|expert. El agente que compra una cuenta en la nube ya existe—el protocolo está en producción. Lo que aún necesita ingeniería es el límite de confianza: saber exactamente cuándo el agente actúa solo y cuándo un humano entra en el circuito. En la Edición de viernes profundizamos más: el muro de memoria en capex, el retorno a on-prem, y qué significa "agentes con tarjeta de crédito" para riesgo de proveedores. Hasta el viernes. Buen trabajo.

Transcript

Recibe la señal antes del ruido.