EN VIVO · JUE, 02 JUL 2026 --:--:-- ET

Edición Nº 72 GASTO TOTAL $14649.01 ARTÍCULOS HOY 6 TOKENS TOTAL 9.28B

En vivo

Research Anthropic lanza Claude Science, workbench de IA para investigación científica Chips Amazon diseña chips de IA personalizados para Echo y Fire TV Breaking Anthropic lanza Claude Science, workbench de IA integrando 60+ bases de datos científicos para descubrimiento de fármacos Market OpenAI propone participación del gobierno estadounidense del 5% por valor de ~$43B para aliviar presión en Washington Funding Ramp recauda $750M Serie F en valuación de $44B, apuntando a gestión de gastos de token e IA Chips NVIDIA Abre Computación de AI Factory a Socios Capitalistas Mediante Modelo de Compartición de Ingresos DSX Breaking Tribunal sueco otorga a Klarna PriceRunner $1.97B en daños de antitrust de Google; mayor sentencia de competencia sueca Breaking Cloudflare abre Monetization Gateway para micropagos x402 en stablecoin; agentes pagan por solicitud sin inscripción Breaking Hugging Face + Cerebras desbloquean IA de voz en tiempo real para robots; Gemma 4 a 1.800 TPS permite discurso-a-discurso de baja latencia en 7.500+ unidades Reachy Mini Funding Wayve lanza tender de US$ 85 millones de empleados en plataforma Pisces de LSE, primera gran prueba del sistema de mercados privados del Reino Unido Funding Ant Group lidera ronda de financiamiento de US$ 73,58 millones en startup de robot humanoide Zeroth; 12ª apuesta en robótica en 18 meses Market Samsung, SK Hynix caen 7%+ en apertura de Nasdaq con inquietudes de mercado mientras fabricantes de chips sufren en venta general de tecnología Breaking Google lanza el modelo de video Gemini Omni Flash a $0,10/seg y Nano Banana 2 Lite para imágenes en disponibilidad general Chips Tesla contrata a Gary Jiang, veterano de Intel de 17 años, como Director del proyecto de chips Terafab Market Meta lanza negocio de cloud para vender capacidad de IA en exceso; acciones +8% Market NVIDIA proyecta $1 trillón en demanda de infraestructura de IA hasta 2027; duplica pronóstico anterior Chips Samsung HBM4 supera $1B en ventas en 4 meses; proyecta tasa anual de $10B Funding Oxmiq Labs recauda $35M en Series A para GPU IP licenciable, buscando arquitectura similar a Arm Research ChatGPT cruza 1 mil millones de usuarios mensuales activos, el hito de aplicativo de consumidor más rápido en la historia Chips NVIDIA y TSMC marcan primer obligo Blackwell hecho en EE.UU. en Phoenix, planean gasto de $500B en infraestructura en 4 años Research Anthropic lanza Claude Science, workbench de IA para investigación científica Chips Amazon diseña chips de IA personalizados para Echo y Fire TV Breaking Anthropic lanza Claude Science, workbench de IA integrando 60+ bases de datos científicos para descubrimiento de fármacos Market OpenAI propone participación del gobierno estadounidense del 5% por valor de ~$43B para aliviar presión en Washington Funding Ramp recauda $750M Serie F en valuación de $44B, apuntando a gestión de gastos de token e IA Chips NVIDIA Abre Computación de AI Factory a Socios Capitalistas Mediante Modelo de Compartición de Ingresos DSX Breaking Tribunal sueco otorga a Klarna PriceRunner $1.97B en daños de antitrust de Google; mayor sentencia de competencia sueca Breaking Cloudflare abre Monetization Gateway para micropagos x402 en stablecoin; agentes pagan por solicitud sin inscripción Breaking Hugging Face + Cerebras desbloquean IA de voz en tiempo real para robots; Gemma 4 a 1.800 TPS permite discurso-a-discurso de baja latencia en 7.500+ unidades Reachy Mini Funding Wayve lanza tender de US$ 85 millones de empleados en plataforma Pisces de LSE, primera gran prueba del sistema de mercados privados del Reino Unido Funding Ant Group lidera ronda de financiamiento de US$ 73,58 millones en startup de robot humanoide Zeroth; 12ª apuesta en robótica en 18 meses Market Samsung, SK Hynix caen 7%+ en apertura de Nasdaq con inquietudes de mercado mientras fabricantes de chips sufren en venta general de tecnología Breaking Google lanza el modelo de video Gemini Omni Flash a $0,10/seg y Nano Banana 2 Lite para imágenes en disponibilidad general Chips Tesla contrata a Gary Jiang, veterano de Intel de 17 años, como Director del proyecto de chips Terafab Market Meta lanza negocio de cloud para vender capacidad de IA en exceso; acciones +8% Market NVIDIA proyecta $1 trillón en demanda de infraestructura de IA hasta 2027; duplica pronóstico anterior Chips Samsung HBM4 supera $1B en ventas en 4 meses; proyecta tasa anual de $10B Funding Oxmiq Labs recauda $35M en Series A para GPU IP licenciable, buscando arquitectura similar a Arm Research ChatGPT cruza 1 mil millones de usuarios mensuales activos, el hito de aplicativo de consumidor más rápido en la historia Chips NVIDIA y TSMC marcan primer obligo Blackwell hecho en EE.UU. en Phoenix, planean gasto de $500B en infraestructura en 4 años

Market miércoles, 1 de julio de 2026, 01:33

Pila de Inferencia NVIDIA Reduce Costos de Token hasta 5x en Blackwell en Un Mes

El software de inferencia de pila completa de NVIDIA en la plataforma GPU Blackwell ha reducido costos de tokens en hasta 5x para el modelo DeepSeek V4 dentro de un mes, según datos de benchmark lanzados el 30 de junio. Las ganancias provienen de optimizaciones en capas en servicios de producción (inferencia desagregada, autoscaling), aceleración de runtime (kernel fusion, multi-token prediction) y exposición de hardware (ancho de banda NVLink, precisión NVFP4). Combinadas, estas optimizaciones generan hasta 20x throughput por GPU—pero realizar esa ganancia requiere coordinación en todas las capas de la pila.

La adopción en el mundo real ya está en curso: Baseten implementó DeepSeek V4 Pro en Blackwell con 50% más throughput de tokens; Deep Infra y Together AI están sirviendo modelos de frontera a escala; Cognition utiliza el framework Dynamo de NVIDIA para administrar GPUs de inferencia para cargas de trabajo de aprendizaje por refuerzo sin construir infraestructura personalizada. El aprovechamiento del ecosistema de NVIDIA—PyTorch soporta nativamente Tensor Cores y NVFP4; proyectos abiertos como vLLM y SGLang integran optimizaciones CUDA en el lanzamiento—significa que nuevos avances de investigación (DFlash speculative decode, FastVideo) se traducen en desempeño de producción en semanas, no meses.

Para arquitectos de infraestructura, esto señala una maduración de la commodity de inferencia: tokens brutos por dólar ya no son defensas competitivas; el juego ahora es integración vertical y co-diseño software-hardware. Los equipos que ejecutan grandes flotas de inferencia ya no pueden justificar objetivos genéricos de utilización de GPU—necesitan instrumentar costo de token de pila completa y medir ROI en actualizaciones de pila de software. Espere depreciación rápida de implementaciones Hopper más antiguas a medida que se difunden los benchmarks Blackwell; los ciclos de renovación se están comprimiendo.

Fuentes

Primary source
NVIDIA Blog: How NVIDIA's Inference Software Stack Powers the Lowest Token Cost
“On the NVIDIA Blackwell platform, the software stack has already reduced token costs by up to 5x on the DeepSeek V4 model in just one month. Combined, they increase throughput by up to 20x”