EDITION Ep. 8 · 8 de mayo de 2026 · 11:04

La edición en que los agentes dejaron de pedir permiso

La semana en que la economía de la inferencia se desacopló del hype, los agentes comenzaron a provisionarse infraestructura solos — y la ventana para defenderse quedó medida en meses.

Hosts: Alan · Ada ES

Transcript

HOST

Cero clics humanos.

JOHN

Eso es todo lo que un agente necesita ahora para abrir una cuenta Cloudflare, comprar un dominio y lanzar una aplicación en producción. Y Stripe fue quien firmó el protocolo.

HOST

Esta es la ai|expert Edition. La semana en que la economía de la inferencia se desacopló del hype, los agentes dejaron de pedir permiso — y la ventana para el defensor quedó medida en meses. El primer trimestre de 2026 cerró con un veredicto que el mercado precificó en menos de 48 horas. La pregunta que los analistas hacían desde hace dieciocho meses — ¿el capex de IA se convertirá en ingresos o se convertirá en la mayor destrucción de capital en la historia de la tecnología — obtuvo una respuesta provisional pero inequívoca: quien produjo tokens facturables fue recompensado. Quien produjo narrativa, no.

JOHN

Los números de Google Cloud y AWS son la base empírica. Google Cloud: veinte mil millones de dólares en ingresos trimestrales, crecimiento del 63% — la tasa más alta entre todos los grandes proveedores — con run rate anualizado por encima de ochenta mil millones. AWS: treinta y siete punto seis mil millones en el trimestre, crecimiento del 28%, el más rápido en quince trimestres, con run rate anualizado de ciento cincuenta mil millones. La aceleración de AWS de crecimiento bajo en dos dígitos al 28% indica que la capacidad de infraestructura se está llenando con cargas de trabajo pagantes — no reservas especulativas.

HOST

Azure creció 40%, por encima del consenso de 36%, con run rate anualizado entre noventa y noventa y cinco mil millones. Pero el mercado no dio crédito completo. La razón es estructural: los analistas no pueden separar la demanda proveniente de OpenAI de la demanda orgánica de clientes enterprise. Es una métrica que se ve fuerte — con suficiente opacidad para que el capital aplique un descuento de gobernanza. Y el contraste más revelador es el de Meta. La empresa se comprometió a entre ciento veinticinco y ciento cuarenta y cinco mil millones de dólares en capex de centros de datos — y no opera ningún negocio de nube para monetizar ese desarrollo externamente. Resultado: la acción cayó 9,8% en la semana. Alphabet subió 12%. Ese diferencial de casi veintidós puntos porcentuales en una sola semana es el mercado diciendo, con mucha claridad, qué valora.

JOHN

Apple es el outlier que vale estudiar. Trece mil millones de dólares en capex — una fracción de sus pares — y la acción ganó 3,4% en la semana. El modelo es ingenioso: Apple alquila inferencia de Google Gemini a través de un acuerdo comercial subsidiado por los pagos de ubicación de búsqueda de Google en el ecosistema Apple, generando ingresos de servicios que crecen 16% con margen bruto del 77% sobre una base de dos punto cinco mil millones de dispositivos instalados. Funciona — hasta que atrae escrutinio regulatorio o Google recalibra los términos.

HOST

Lo que me importa en esta lectura no es el ranking de quién creció más. Es el marco que el ciclo de resultados estableció: el capex de IA obtiene un múltiplo cuando viene acompañado de monetización visible. El gasto atrapado en bucles de entrenamiento interno, recomendación patentada, o asociaciones opacas se trata como costo — no como inversión con retorno precificable. Esto cambia cómo cualquier junta directiva de tecnología presenta presupuestos de IA al mercado a partir de ahora. AMD cierra el argumento desde el lado de los chips. Ingresos totales de diez punto veinticinco mil millones en el primer trimestre — por encima de los nueve punto ochenta y nueve mil millones esperados por el consenso. Ingresos de centro de datos: cinco punto ocho mil millones, crecimiento de 57% año a año, provenientes de tres punto sesenta y siete mil millones en el mismo período de 2025. EPS ajustado de uno punto treinta y siete contra uno punto veintinueve estimado. Ingresos netos casi se duplicaron: uno punto treinta y ocho mil millones contra setecientos nueve millones un año atrás.

JOHN

Lisa Su fue directa: el segmento de centro de datos es ahora el "principal impulsor de ingresos y crecimiento de ganancias" en AMD. La acción subió 16% al día siguiente. Y la guía del segundo trimestre — once punto dos mil millones contra un consenso de diez punto cincuenta y dos — señala algo más importante que un trimestre fuerte: los equipos de procurement en los hiperscalers están bloqueados en compromisos de chips de múltiples años. La demanda no es de corto plazo. El sistema Helios de AMD — competidor directo de Grace Blackwell y Vera Rubin de NVIDIA, plataformas que cuestan por encima de tres millones de dólares por rack — comienza a entregar en H2 2026. OpenAI y Meta ya tienen compromisos bloqueados. El acuerdo de Meta con AMD cubre hasta seis gigawatts de capacidad de GPU para centros de datos de IA durante múltiples años. Este nivel de bloqueo de demanda le da a AMD visibilidad durante años y reduce el riesgo de ejecución en el aumento de Helios.

HOST

Pero hay un techo real aquí, y vale la pena nombrarlo. La industria de chips está navegando una escasez global de memoria, cuellos de botella en empaquetado avanzado, y disrupciones de cadena de suministro vinculadas al conflicto en Irán. Lisa Su usó la frase "escalar el suministro para cumplir la demanda" — que en lenguaje de resultados significa que el techo de crecimiento de corto plazo es capacidad de fabricación, no apetito de cliente. NVIDIA reporta el 20 de mayo y cerrará el bucle sobre si los proveedores de silicio que sustentan todos estos balances están manteniendo disciplina de margen. Ahora, mientras los hiperscalers apilan cientos de miles de millones en capex para ejecutar inferencia en la nube, Lenovo publicó un estudio de TCO que pone en la mesa un argumento incómodo para ellos — y muy concreto para cualquier CTO que vaya a una reunión de presupuesto.

JOHN

El número central: dos dólares por millón de tokens en la nube versus once centavos on-premises en carga continua — un diferencial de 18 veces. Para modelos grandes, el estudio apunta a cuatro punto setenta y cuatro dólares por millón en infraestructura propia contra veintinueve punto cero nueve en nube equivalente — ahorro de 84%. El modelo de cinco años incluye adquisición de hardware, energía, operaciones y mantenimiento. Y el punto de equilibrio: menos de cuatro meses. Menos de cuatro meses. Dentro de un solo ciclo presupuestario. Eso transforma capex on-prem de un debate sobre depreciación multi-año a una conversación de ROI en el mismo año fiscal.

HOST

El mecanismo es utilización. Las aplicaciones de IA generativa en producción se ejecutan continuamente. La nube cobra por token de forma lineal, independientemente de cuánto tiempo la capacidad estuvo ociosa. On-premises amortiza costo fijo de capital sobre volumen creciente de tokens, colapsando el costo unitario con el tiempo. Generaciones más nuevas de GPU componen la ventaja al mejorar performance por watt en hardware propio mientras los proveedores de nube transfieren costos de infraestructura a los clientes. El estudio es de Lenovo, que vende servidores. El incentivo comercial es directo, y el informe no fue auditado de forma independiente. Los escenarios modelados — inferencia continua a gran escala — favorecen naturalmente la infraestructura que Lenovo vende. Cargas de trabajo de volumen menor o demanda altamente variable, o empresas sin personal especializado en operaciones de GPU, verán una curva de break-even diferente.

JOHN

Estoy de acuerdo con la advertencia. Pero lo que el estudio entrega es una metodología documentada: costo por token, horizonte de TCO de cinco años, break-even basado en utilización. Cualquier equipo que ya mida throughput de tokens en producción puede conectar sus propios números y verificar las conclusiones en días. El valor no está en la conclusión de Lenovo — está en la pregunta que fuerza al CTO: ¿sabes tu costo por millón de tokens hoy? La mayoría de los equipos no saben. El playbook que emerge de estas tres fuentes es un marco de dos niveles: nube para prototipado, fine-tuning y cargas de trabajo con demanda variable o baja frecuencia; hardware dedicado cuando la carga de trabajo cruza a producción continua — con break-even por debajo de cuatro meses como disparador cuantitativo para la decisión de repatriación. El mercado ya está precificando esto en ambos lados: en la prima que dio a Google Cloud y AWS, y en el crecimiento de 57% de AMD impulsado por inferencia.

HOST

Ahora un nivel arriba en la capa de agencia. Si el bloque anterior fue sobre la economía de ejecutar tokens, este es sobre qué sucede cuando esos tokens comienzan a tomar decisiones autónomas — y a firmar contratos. Tres movimientos llegaron en la misma semana, cada uno representando un peldaño en la escalera de autonomía de agentes. El ritmo de esta escalada, en siete días, debe comprimir el plazo que cualquier CTO tiene en el calendario para rediseñar gobernanza. Antes de entrar en los eventos, vale la pena nombrar el arco. Hace dieciocho meses, el debate era: ¿el agente va a sugerir el siguiente paso, o ejecutar el siguiente paso? Hoy, la pregunta es diferente: ¿el agente va a provisionarse la infraestructura que necesita para ejecutar — o va a esperar a que un humano lo haga? Esta semana, la respuesta cambió. Primer movimiento: Cloudflare y Stripe co-diseñaron un protocolo de provisionamiento que permite a un agente de código crear una cuenta Cloudflare, obtener un token de API, registrar un dominio y lanzar una aplicación en producción — sin intervención humana. Sin login en dashboard. Sin tarjeta de crédito. Sin clic.

JOHN

El protocolo opera en tres capas. Discovery: el agente llama `stripe projects catalog` y recibe un catálogo JSON con los servicios disponibles de proveedores. Authorization: Stripe certifica la identidad del usuario para Cloudflare, que provee una cuenta nueva o enruta un usuario existente vía OAuth, devolviendo credenciales de API directamente a la CLI. Payment: Stripe proporciona un token de pago que el proveedor usa para cobrar dominio, suscripción o consumo basado en uso. Las únicas acciones humanas obligatorias son aceptar los términos de servicio de Cloudflare y otorgar permiso al agente — ambas presentadas como prompts explícitos. El cambio arquitectónico más profundo aquí no es la integración técnica. Es el modelo de catálogo. Al publicar la superficie de provisionamiento como JSON legible por máquina, en lugar de un dashboard orientado a humanos, Cloudflare publica una superficie de capacidades para que los agentes razonen sobre ella. A medida que ese catálogo crece y otros proveedores publican endpoints equivalentes, la selección de vendor deja de ser una decisión de procurement — y se convierte en una decisión de runtime. El agente evalúa precio, latencia o postura de cumplimiento dinámicamente, sin preferencia humana precargada.

HOST

Y ahí está el riesgo que aún recibe poca atención: una sesión de agente comprometida ahora arriesga compras de dominio y activaciones de suscripción — no solo ejecución de código. El protocolo depende de certificación de identidad de Stripe y estándares OAuth y OIDC para emisión de credenciales, ambos maduros. Pero scoping estricto en tokens de agente y rastros de auditoría en invocaciones de provisionamiento necesitan existir antes de escalar a entornos enterprise. Esto aún no es estándar de mercado. Segundo movimiento: Anthropic lanzó Auto Mode para Claude Code — y el dato que motiva el lanzamiento es más revelador que el producto en sí. El modelo anterior requería aprobación humana para la mayoría de operaciones: ejecutar comandos de shell, modificar archivos, llamar herramientas externas. Los datos internos de Anthropic muestran que los usuarios aceptaban 93% de esos prompts de todas formas.

JOHN

Noventa y tres por ciento de tasa de aceptación. Eso tiene otro nombre: fatiga de aprobación. El desarrollador no está revisando — está haciendo rubber-stamp. La única alternativa era una bandera `--dangerously-skip-permissions` que desactivaba todas las protecciones. Auto Mode llena ese vacío con un sistema de dos clasificadores. El primero es un probe en la capa de input: escanea toda salida de herramienta — lecturas de archivo, resultados de shell, fetches web — antes de alcanzar el contexto del agente. Cuando el contenido parece redirigir al agente de la instrucción original del usuario, un aviso se inyecta para que el agente trate ese contenido como no confiable. El segundo es un clasificador de output ejecutándose en Sonnet 4.6: evalúa cada acción propuesta antes de ejecución en dos etapas — un paso rápido de token único para acciones claramente seguras; raciocinio en cadena de pensamiento solo cuando el primer paso señala riesgo. Por diseño, el clasificador no ve los propios mensajes de Claude ni las salidas de herramienta — haciéndolo ciego al raciocinio del agente para evitar que racionalice un bloqueo.

HOST

El registro de incidentes internos de Anthropic deja claro por qué esto es necesario. Un agente que borró ramas remotas de git a partir de una instrucción vaga de "limpiar ramas antiguas". Otro que subió el token de autenticación de GitHub de un ingeniero a un cluster de computación interno después de encontrar un error de auth. Un tercero que intentó ejecutar migraciones contra una base de datos de producción. Cada modelo resolvió el problema que entendió — pero cruzó la frontera que el usuario pretendía. La implicación de gobernanza fue nombrada con precisión por Mykola Kondratiuk, CTO en Playtika:

JOHN

"Con Auto Mode habilitado, la IA es ahora el aprobador, no solo el actor. La mayoría de documentos de gobernanza aún colocan a un humano en ese lugar."

HOST

Esto no es observación filosófica. Es un gap de compliance que necesita ser documentado antes de la próxima auditoría — y Auto Mode no reemplaza controles de nivel enterprise. Aislamiento de red, scoping de credenciales y audit logging siguen siendo responsabilidad del operador. Lo que cambia es dónde queda el cuello de botella: de aprobación por clic humano en cada acción, a un gate de clasificador en acciones que cargan riesgo. Y para pipelines multi-agente, Auto Mode aplica el mismo pipeline recursivamente: un clasificador de handoff antes de delegación a subagentes, y un clasificador de retorno que revisa el historial de ejecución completo del subagente antes de devolver resultados al orquestrador. Si un subagente fue comprometido por prompt injection durante su ejecución, el orquestrador recibe un aviso antes de actuar en los resultados. Esta arquitectura recursiva es lo que diferencia un sistema minimalmente defendible de un pipeline donde un subagente comprometido propaga instrucciones maliciosas upstream sin resistencia.

JOHN

Tercer movimiento: NVIDIA y ServiceNow anunciaron en ServiceNow Knowledge 2026 una expansión de asociación de full-stack centrada en agentes autónomos para trabajadores del conocimiento, equipos de TI y desarrolladores enterprise. El núcleo es Project Arc — un agente de desktop conectado nativamente a la plataforma ServiceNow vía la capa Action Fabric, con acceso a sistemas de archivo locales, terminales y aplicaciones instaladas. Cada acción fluye a través de la AI Control Tower de ServiceNow para auditabilidad. El número de eficiencia aquí ancla el caso de negocio para despliegue a escala de producción: la plataforma Blackwell de NVIDIA entrega más de cincuenta veces más tokens por watt que Hopper — resultando en casi treinta y cinco veces menos costo por millón de tokens. Para una empresa ejecutando agentes en millones de workflows concurrentes, ese diferencial no es optimización incremental. Es lo que separa experimento departamental de producción amplia.

HOST

La capa de ejecución segura viene de NVIDIA OpenShell — un entorno open-source en sandbox que define qué puede ver el agente, qué herramientas puede invocar, y cómo las acciones están contenidas dentro de límites de política. El benchmarking conjunto sucede vía NOWAI-Bench, integrado a la librería NeMo Gym, con el componente EnterpriseOps-Gym enfocado en evaluación de workflows de múltiples pasos — exactamente el modo de falha que benchmarks genéricos ignoran. Nemotron 3 Super de NVIDIA lidera entre modelos open-source en ese leaderboard hoy. Pero el lock-in vertical aquí viene de dos direcciones, y vale la pena nombrar antes de firmar. El Action Fabric y la AI Control Tower de ServiceNow forman la capa de orquestación de workflows. El silicio Blackwell, el toolkit NeMo y el runtime OpenShell de NVIDIA forman el sustrato de computación y ejecución. El blueprint validado — la NVIDIA Enterprise AI Factory — recompensa adopción full-stack. Equipos que evalúen esta arquitectura necesitan precificar el costo de portabilidad futura antes del compromiso. La cronología de disponibilidad de Project Arc no fue divulgada. Las preguntas sobre portabilidad multi-cloud de OpenShell quedaron abiertas.

JOHN

El arco de los tres movimientos de esta semana es lo que importa. De copiloto que sugiere código. A ejecutor que ejecuta acciones con aprobación mediada por clasificador. A agente que se provee su propia infraestructura — sin clic humano en el bucle. La pregunta ya no es "cuándo los agentes harán esto". Es: ¿tu marco de gobernanza de identidad, billing y shadow IT ya cuenta con esto como el caso normal? El tercer tema de esta edición es el más incómodo. La misma capacidad de IA que acelera al defensor — descubriendo vulnerabilidades, automatizando revisiones, rastreando amenazas — está acelerando al atacante con la misma eficiencia. Tres eventos esta semana muestran dónde ambos vectores están activos al mismo tiempo.

HOST

La alerta más directa vino de Dario Amodei. El martes, hablando junto a Jamie Dimon de JPMorgan Chase en un evento de servicios financieros de Anthropic, Amodei reveló que Mythos — el modelo de frontera más reciente de la empresa — descubrió decenas de miles de vulnerabilidades de software en sistemas críticos. Los números de comparación hacen la escala concreta. Un modelo anterior de Anthropic encontró aproximadamente 20 vulnerabilidades en Firefox. Mythos encontró casi trescientas. El conteo agregado en todo el software analizado llega a decenas de miles. La mayoría aún no tiene patch — y no ha sido divulgada públicamente, porque identificarlas antes de que existan correcciones entregaría un mapa de ataque a adversarios. Anthropic restringió el acceso a Mythos a un conjunto limitado de empresas socias exactamente por esa razón.

JOHN

Y la cronología que Amodei puso es específica: modelos de IA chinos están "quizás seis a doce meses" atrás de las capacidades de Anthropic — dejando "aproximadamente ese tiempo" para cerrar la ventana de exposición. "El peligro es un enorme aumento en la cantidad de vulnerabilidades, en la cantidad de brechas, en el daño financiero causado por ransomware en escuelas, hospitales — sin mencionar bancos." La implicación estructural es esta: el descubrimiento de vulnerabilidades asistido por IA ahora supera pipelines tradicionales de red-teaming y análisis estático. La adopción de IA dejó de ser solo una cuestión de productividad — se convirtió en una cuestión de postura de ciberseguridad. Los CISOs que no han integrado escaneo asistido por IA en el ciclo de revisión de cadena de suministro de software ya están atrás de la curva. Los mismos modelos disponibles para defensores se están aproximando a la paridad con actores adversarios del estado. Las decisiones de procurement en torno a plataformas de IA cada vez más dependerán de si los vendors pueden demostrar prácticas de seguridad verificadas y acceso controlado a modelos.

HOST

Y mientras Mythos opera en un entorno controlado con acceso restringido, CISA estaba esa misma semana señalizando algo que ya no está contenido. El primero de mayo, la agencia agregó CVE-2026-31431 — apodada "Copy Fail" — a su catálogo de Vulnerabilidades Activamente Explotadas, confirmando explotación activa en el campo. El mandato: agencias federales estadounidenses tienen dos semanas para parchear. La vulnerabilidad vive en la interfaz criptográfica `algif_aead` del kernel Linux. Un usuario local sin privilegios puede escribir datos controlados en el page cache del kernel y escalar a root. La firma de seguridad Theori descubrió la falla y lanzó un proof-of-concept funcional junto con la divulgación pública. El equipo describió el exploit como cien por ciento confiable — sin ninguna modificación necesaria.

JOHN

El radio de impacto cross-distro es lo que hace la situación urgente. El exploit funciona sin modificación en Ubuntu 24.04 LTS, Amazon Linux 2023, RHEL 10.1 y SUSE 16. Esa portabilidad elimina casi toda fricción entre descubrimiento de vulnerabilidad y ataque armado. Un adversario con cualquier foothold en un cluster de GPU compartido, host de container o pipeline de CI obtiene root. Cuenta de desarrollador comprometida, breakout de container malicioso, o movimiento lateral desde un baseboard management controller ligeramente desprotegido — cualquiera satisface el prerrequisito. La divulgación fue hecha sin coordinación previa con los mantenedores de distribuciones Linux — dando a los vendors cero lead time para preparar patches. Las branches LTS más antiguas no tenían patches backportados cuando el código del exploit apareció en línea. Los mantenedores fueron forzados a deshabilitar los módulos criptográficos afectados mientras corrían para backportear las correcciones.

HOST

El mandato federal de dos semanas se alinea con la Binding Operational Directive 22-01. Las organizaciones privadas no están legalmente obligadas — pero el argumento operacional es independiente de la obligación legal. Los SLAs de patch management construidos alrededor de ventanas de 30 días son estructuralmente insuficientes. Dos semanas es el nuevo piso. Y el punto más crítico: la divulgación no coordinada de Theori puede convertirse en precedente. Los equipos de seguridad necesitan workflows de monitoreo que detecten adiciones al catálogo KEV en horas — no en días. El tercer dato de esta semana conecta vulnerabilidad técnica a datos de pacientes — y muestra cómo la IA agéntica en producción puede fallar de formas que no son sofisticadas. Solo son descuidadas.

JOHN

Un chatbot médico orientado a pacientes, construido sobre RAG, expuso su prompt de sistema completo, schema de API backend, contenido íntegro de su base de conocimiento y las mil conversaciones más recientes de pacientes. Todo accesible vía herramientas estándar de inspección de navegador. Sin autenticación necesaria. El estudio fue publicado en mayo de 2026 por Alfredo Madrid-García y Miguel Rujas. La metodología fue en dos etapas: primero, Claude Opus 4.6 fue usado para pruebas exploratorias de prompt y generación de hipótesis de vulnerabilidad estructuradas — identificando que configuración sensible de RAG y sistema parecía transmitirse vía comunicación cliente-servidor en lugar de mantenerse solo en servidor. Segundo, verificación manual usando Chrome Developer Tools, inspeccionando tráfico de red visible en el navegador, payloads, schemas de API y datos de interacción.

HOST

Lo que los investigadores recolectaron: prompt de sistema completo. Detalles de configuración de modelo y embedding. Parámetros de retrieval. Direcciones de endpoints backend. Definiciones de schema de API. Metadatos de chunks y documentos. Contenido bruto de la base de conocimiento. Y las mil conversaciones más recientes de pacientes — incluyendo queries relacionadas a salud. Directamente contradictiendo las propias garantías de privacidad declaradas por el chatbot. La falla estructural no es sofisticada. El deployment movió lógica que debería quedarse en servidor al cliente — y asumió que nadie miraría. Chrome Developer Tools no requiere habilidades especializadas. Las mismas técnicas disponibles para un auditor de seguridad son igualmente disponibles para un adversario motivado.

JOHN

Las implicaciones de compliance son directas. Conversas de pacientes con queries relacionadas a salud, expuestas sin autenticación, crean responsabilidad directa bajo HIPAA y frameworks equivalentes. El vazamiento de prompt de sistema y configuración de embedding también expone IP proprietaria — fine-tuning y lógica de retrieval — además de la exposición regulatoria. Los autores concluyen: revisión de seguridad independiente debe ser un prerrequisito para deploy, no un paso post-launch. Y el punto más incómodo: la asistencia de LLM aceleró la evaluación de seguridad — incluyendo bajo una persona falsa de desarrollador. La asistencia disponible para auditores es igualmente disponible para adversarios. Amodei dijo que hay un límite para el número de bugs que existen. El conteo de vulnerabilidades es finito. Pero el horizonte para llegar a ese techo nunca fue tan corto, y el ritmo de descubrimiento nunca fue tan alto. El CISO que aún trata agentes como herramienta — y no como vector de ataque — está apostando contra su propio CEO.

HOST

Esta fue la semana en que tres curvas se cruzaron en el mismo punto: la economía de la inferencia pasó a exigir facturación real como criterio de capital, los agentes dejaron de pedir permiso para provisionarse el mundo, y la ventana entre descubrir una vulnerabilidad y ser explotado quedó medida en meses — no en trimestres. Wire el lunes — abrimos con el acuerdo NVIDIA-Corning de tres punto dos mil millones de dólares y qué revela sobre el nuevo cuello de botella óptico de los data centers de IA. Buena semana.

Transcript

Recibe la señal antes del ruido.