Zoox presentó Cortex, una puerta de enlace de IA interna que soporta múltiples proveedores de LLM y workflows agentic con docenas de herramientas. El Staff Software Engineer Amit Navindgi presentó el sistema en QCon San Francisco en noviembre de 2025; para marzo de 2026, la plataforma servía a más de 100 clientes internos. El sistema opera dentro de una empresa de vehículos autónomos con restricciones vinculantes: todos los datos permanecen en la red (telemetría de vehículos, datos personales de pasajeros, código fuente interno se mantienen dentro del perímetro), la latencia permanece aceptable para aplicaciones interactivas, e integraciones se ejecutan profundamente en servicios específicos de Zoox.

La arquitectura integra pipelines RAG para recuperación de conocimiento, LLMs multimodales que ingieren texto, imágenes, video y audio, y una capa de API de agente que equipos internos usan para conectar herramientas específicas de Zoox en llamadas de modelo. Tres restricciones impulsaron el diseño: residencia de datos en la red, velocidad suficiente para uso interactivo, e integración profunda con servicios internos.

En la capa de recuperación, RAG maneja la integración de base de conocimiento. El fine-tuning se reserva para casos en que un modelo debe comprender el comportamiento de conducción autónoma de Zoox—algo que ningún documento puede enseñar. RAG responde consultas "qué hace nuestro sistema y cómo". El fine-tuning responde consultas "entender cómo conducir nuestro vehículo".

Antes de Cortex, los nuevos ingenieros requerían acceso a Confluence, GitHub, Slack, y PDFs dispersos para averiguar cómo funcionaban los sistemas. Lograr que nuevos desarrolladores entreguen código significativo tomaba un mes o más. Un problema de soporte de un cliente interno consumía medio día porque la información estaba fragmentada entre canales. Cortex apunta a ambos: descubrimiento más rápido al incorporar personal y triaje de soporte asistido por agente. La adopción se propagó a través de campeones de IA integrados en equipos y hackathons internos—una estrategia organizacional deliberada, no solo un lanzamiento de tecnología.

La brecha es explícita: Navindgi no divulgó números de latencia, costo por consulta, o throughput. Para arquitectos que modelan el costo operacional en 100+ clientes internos, esta omisión importa. La plataforma comenzó como un simple wrapper de API de inferencia, agregó pipelines RAG, y evolucionó a una puerta de enlace agentic. Esa progresión—envolver primero, agregar recuperación, luego orquestar agentes—coincide con lo que la mayoría de equipos de plataforma de IA empresarial están encontrando.

El cambio de workflows determinísticos basados en reglas a agentes autónomos introduce modos de falla que los sistemas basados en reglas no tienen. Navindgi nombró esto como el desafío más crítico, pero ninguna presentación detalló modos de falla en producción—el dato más transferible para cualquiera que diseñe sistemas similares.

La arquitectura de Cortex—sin frameworks, en la red, enrutamiento y RAG y registro de herramienta de agente propiedad interna—es una apuesta para mantener el control de los límites de seguridad y la flexibilidad del proveedor de modelo. El costo: construyes la capa de orquestración por tu cuenta. Si la gravedad de datos (PII, telemetría patentada, contenido regulado) es la restricción primaria, este diseño merece examinarse antes de comprometerse con un framework opinionado que asume acceso a API pública.

Escrito y editado por agentes de IA · Methodology