AO VIVO · QUI., 02 DE JUL. DE 2026 --:--:-- ET

Edição Nº 72 GASTO TOTAL $14649.01 ARTIGOS HOJE 6 TOKENS TOTAL 9.28B

Na linha

Research Anthropic lança Claude Science, workbench de IA para pesquisa científica Chips Amazon projeta chips de IA customizados para Echo e Fire TV Breaking Anthropic lança Claude Science, workbench de IA integrando 60+ bancos de dados científicos para descoberta de drogas Market OpenAI propõe participação de 5% do governo dos EUA no valor de ~$43B para aliviar pressão em Washington Funding Ramp arrecada $750M Series F em avaliação de $44B, visando gerenciamento de gastos de token e IA Chips NVIDIA Abre Computação de AI Factory para Parceiros Capitalistas Via Modelo Revenue-Share DSX Breaking Tribunal sueco premia Klarna PriceRunner com $1,97B em indenizações de antitrust do Google; maior sentença de competição sueca Breaking Cloudflare abre Monetization Gateway para micropagamentos x402 em stablecoin; agentes pagam por solicitação sem inscrição Breaking Hugging Face + Cerebras desbloqueiam IA de voz em tempo real para robôs; Gemma 4 a 1.800 TPS permite fala-para-fala de baixa latência em 7.500+ unidades Reachy Mini Funding Wayve lança tender de US$ 85 milhões de funcionários na plataforma Pisces da LSE, primeiro grande teste do sistema de mercados privados do Reino Unido Funding Ant Group lidera rodada de financiamento de US$ 73,58 milhões em startup de robô humanóide Zeroth; 12ª aposta em robótica em 18 meses Market Samsung, SK Hynix caem 7%+ em abertura no Nasdaq com preocupações de mercado enquanto fabricantes de chips sofrem com venda geral de tecnologia Breaking Google lança modelo de vídeo Gemini Omni Flash a US$0,10/seg e Nano Banana 2 Lite para imagens em disponibilidade geral Chips Tesla contrata Gary Jiang, veterano da Intel com 17 anos, como Diretor do projeto de chips Terafab Market Meta lança negócio de cloud para vender capacidade de IA em excesso; ações +8% Market NVIDIA projeta $1 trilhão em demanda de infraestrutura de IA até 2027; dobra previsão anterior Chips Samsung HBM4 ultrapassa $1B em vendas em 4 meses; projeta taxa anual de $10B Funding Oxmiq Labs arrecada $35M em Series A para GPU IP licenciável, visando arquitetura similar à Arm Research ChatGPT ultrapassa 1 bilhão de usuários mensais ativos, marco mais rápido de aplicativo de consumidor na história Chips NVIDIA e TSMC marcam primeiro wafer Blackwell feito nos EUA em Phoenix, planejam gasto de $500B em infraestrutura em 4 anos Research Anthropic lança Claude Science, workbench de IA para pesquisa científica Chips Amazon projeta chips de IA customizados para Echo e Fire TV Breaking Anthropic lança Claude Science, workbench de IA integrando 60+ bancos de dados científicos para descoberta de drogas Market OpenAI propõe participação de 5% do governo dos EUA no valor de ~$43B para aliviar pressão em Washington Funding Ramp arrecada $750M Series F em avaliação de $44B, visando gerenciamento de gastos de token e IA Chips NVIDIA Abre Computação de AI Factory para Parceiros Capitalistas Via Modelo Revenue-Share DSX Breaking Tribunal sueco premia Klarna PriceRunner com $1,97B em indenizações de antitrust do Google; maior sentença de competição sueca Breaking Cloudflare abre Monetization Gateway para micropagamentos x402 em stablecoin; agentes pagam por solicitação sem inscrição Breaking Hugging Face + Cerebras desbloqueiam IA de voz em tempo real para robôs; Gemma 4 a 1.800 TPS permite fala-para-fala de baixa latência em 7.500+ unidades Reachy Mini Funding Wayve lança tender de US$ 85 milhões de funcionários na plataforma Pisces da LSE, primeiro grande teste do sistema de mercados privados do Reino Unido Funding Ant Group lidera rodada de financiamento de US$ 73,58 milhões em startup de robô humanóide Zeroth; 12ª aposta em robótica em 18 meses Market Samsung, SK Hynix caem 7%+ em abertura no Nasdaq com preocupações de mercado enquanto fabricantes de chips sofrem com venda geral de tecnologia Breaking Google lança modelo de vídeo Gemini Omni Flash a US$0,10/seg e Nano Banana 2 Lite para imagens em disponibilidade geral Chips Tesla contrata Gary Jiang, veterano da Intel com 17 anos, como Diretor do projeto de chips Terafab Market Meta lança negócio de cloud para vender capacidade de IA em excesso; ações +8% Market NVIDIA projeta $1 trilhão em demanda de infraestrutura de IA até 2027; dobra previsão anterior Chips Samsung HBM4 ultrapassa $1B em vendas em 4 meses; projeta taxa anual de $10B Funding Oxmiq Labs arrecada $35M em Series A para GPU IP licenciável, visando arquitetura similar à Arm Research ChatGPT ultrapassa 1 bilhão de usuários mensais ativos, marco mais rápido de aplicativo de consumidor na história Chips NVIDIA e TSMC marcam primeiro wafer Blackwell feito nos EUA em Phoenix, planejam gasto de $500B em infraestrutura em 4 anos

Market quarta-feira, 1 de julho de 2026 às 01:33

Pilha de Inferência NVIDIA Reduz Custos de Token em até 5x no Blackwell em Um Mês

O software de inferência de pilha completa da NVIDIA na plataforma GPU Blackwell reduziu custos de token em até 5x para o modelo DeepSeek V4 dentro de um único mês, de acordo com dados de benchmark lançados em 30 de junho. Os ganhos vêm de otimizações em camadas no serving de produção (inferência desagregada, autoscaling), aceleração de runtime (kernel fusion, multi-token prediction) e exposição de hardware (largura de banda NVLink, precisão NVFP4). Combinadas, essas otimizações produzem até 20x throughput por GPU—mas realizar esse ganho requer coordenação em todas as camadas da pilha.

A adoção no mundo real já está em andamento: Baseten implantou DeepSeek V4 Pro no Blackwell com 50% mais throughput de tokens; Deep Infra e Together AI estão servindo modelos de fronteira em escala; Cognition usa o framework Dynamo da NVIDIA para gerenciar GPUs de inferência para cargas de trabalho de aprendizado por reforço sem construir infraestrutura personalizada. A alavancagem do ecossistema da NVIDIA—PyTorch suporta nativamente Tensor Cores e NVFP4; projetos abertos como vLLM e SGLang integram otimizações CUDA no lançamento—significa que novos avanços de pesquisa (DFlash speculative decode, FastVideo) se traduzem em desempenho de produção em semanas, não meses.

Para arquitetos de infraestrutura, isso sinaliza uma maturação da commodity de inferência: tokens brutos por dólar não são mais moats competitivos; o jogo agora é integração vertical e co-design software-hardware. Equipes que executam grandes frotas de inferência não podem mais justificar metas genéricas de utilização de GPU—elas precisam instrumentar custo de token de pilha completa e medir ROI em atualizações de pilha de software. Espere depreciação rápida de implementações Hopper mais antigas conforme benchmarks Blackwell se espalham; ciclos de renovação estão se comprimindo.

Fontes

Primary source
NVIDIA Blog: How NVIDIA's Inference Software Stack Powers the Lowest Token Cost
“On the NVIDIA Blackwell platform, the software stack has already reduced token costs by up to 5x on the DeepSeek V4 model in just one month. Combined, they increase throughput by up to 20x”