Verificações de saúde de GPU da Databricks detectam falhas silenciosas em menos de cinco minutos

Executar um trabalho de treinamento com 1.024 GPUs por 30 dias traz 57% de chance de encontrar pelo menos uma falha de hardware. Com 256 GPUs cai para 19%. A Databricks publicou um detalhamento detalhado de sua pilha de confiabilidade de GPU esta semana — o primeiro de uma série — cobrindo classificação de falhas, teste de estresse e verificações de saúde em múltiplos estágios em toda a frota que serve 125 trilhões de tokens por mês.

A Databricks divide falhas de GPU em três categorias. Trabalhos travados são os mais fáceis: um timeout do watchdog NCCL mata a execução imediatamente e o treinamento reinicia do checkpoint. O timeout em si não revela nada sobre a causa subjacente — o diagnóstico requer rastreamento de camadas de hardware, fabric, filesystem e software. Desacelerações silenciosas são mais difíceis. Uma GPU degradada mantém o progresso de treinamento se movendo e a perda tendendo para baixo, mas a taxa de transferência fica limitada no nó mais lento. Os sintomas aparecem em sinais de hardware: razões de throttle DCGM para eventos térmicos, métricas de saúde de link InfiniBand para degradação, contadores de largura de banda de memória enquanto falhas ECC se acumulam. Corrupção numérica é a mais difícil. O ECC captura e corrige muitas falhas transitórias transparentemente, mas quando falha, o treinamento continua com valores incorretos — manifestando-se como perda NaN, convergência instável ou regressões de qualidade de modelo apenas visíveis no tempo de avaliação.

A matemática impulsiona a prioridade. A Databricks modela cada GPU com taxa de falha anualizada de 1%. Em 30 dias, 256 GPUs enfrentam ~19% de chances de pelo menos uma falha; 1.024 GPUs enfrentam ~57%. Estes não são riscos de cauda — são realidade operacional de base. A infraestrutura de treinamento deve ser tolerante a falhas por design, não por exceção.

A Databricks expõe falhas cedo executando cargas de trabalho exigentes no hardware do cliente: aprendizado por reforço para KARL (seu modelo de codificação agêntica), pipelines de avaliação agêntica e sistemas de inteligência de documentos. Cargas de trabalho RL estressam a pilha combinando treinamento, inferência e computação de recompensa em loops apertados em muitas GPUs, atingindo casos extremos de fabric, térmicos e de comunicação coletiva que cargas de trabalho mais leves perdem. Um exemplo recente: uma execução de treinamento falhou com um timeout NCCL após sete horas. A investigação rastreou até uma única porta InfiniBand que havia degradado após uma recuperação — mas não produziu erros registrados. Apenas a queda de taxa de transferência acionou o timeout.

Capturar essas falhas requer investigação em todas as fases do ciclo de vida do nó. A verificação de saúde em múltiplos estágios da Databricks valida o hardware de GPU antes dos trabalhos começarem, monitora degradação silenciosa sob carga e investiga a saúde do fabric NCCL entre nós entre trabalhos. No lado da inferência — roteando tráfego para endpoints Kimi, Qwen, OpenAI, Gemini e Claude — as próprias verificações de saúde falham sob carga pesada: as verificações expiram, matando servidores saudáveis via sondas de vivacidade falsas. A correção: atribuir tráfego de verificação de saúde a prioridade de agendamento mais alta. A recuperação então executa em menos de cinco minutos: detectar travamento, matar servidor não saudável, reiniciar. As mortes falsas caíram de várias por semana para zero.

A figura de 80% do título precisa de precisão. Refere-se a economias de custo de GPU de autoscaling baseado em unidade de modelo versus provisionamento estático, não para MTTR. A alocação de pico estática é insustentável; alocação dinâmica mantém contagens de réplica próximas à demanda real para cargas de trabalho bursty. O ganho de latência real é o ciclo de recuperação sub-cinco-minutos. Ambos os números vêm da mesma plataforma mas resolvem problemas diferentes: eficiência de custo e tolerância a falhas estão vinculadas apenas em que o sobreprovisioning estático não compra confiabilidade.

Equipes de plataforma executando clusters com centenas de GPUs precisam de monitoramento de sinais de hardware — métricas DCGM, saúde de link, largura de banda de memória — não apenas observabilidade de nível de trabalho. Throttling térmico parece um trabalho lento. Uma porta InfiniBand degradada parece barulho. Falhas corrigidas por ECC parecem nada até que se importem. Verificações de saúde são tão boas quanto sua prioridade de agendamento e amplitude de investigação.

Sources

256-GPU job running 30 days has ~19% probability of at least one failure event; 1,024-GPU job has ~57%
"A 256-GPU job running for 30 days has about a 19% chance of seeing a failure. At 1,024 GPUs, that climbs to 57%."
databricks.com ↗
Databricks models each GPU at a 1% annualized failure event rate as a conservative baseline
"As a conservative back-of-the-envelope assumption, take each GPU as having a 1% annualized failure event rate."
databricks.com ↗
Silent slowdowns tracked via DCGM throttle reasons HW_SLOWDOWN and HW_THERMAL_SLOWDOWN, plus interconnect link health
"These slowdowns come from hardware running in a degraded state... DCGM throttle reasons like HW_SLOWDOWN or HW_THERMAL_SLOWDOWN for thermal, or link health for interconnects."
databricks.com ↗
ECC corrects many transient faults but corruption can propagate as NaN losses, unstable convergence, or quality regressions
"Corruption may originate in memory, interconnects, kernels, or software layers and can propagate before it is detected or contained. Failures can appear as NaN losses, unstable convergence, or model quality regressions."
databricks.com ↗
A training run failed with NCCL timeout 7 hours in due to a single InfiniBand port that partially recovered but never fully recovered, with no error in logs
"A training run failed with a NCCL watchdog timeout seven hours into training. Investigation showed that a single Infiniband port used for RDMA NCCL collectives had gone down once and recovered. It never [fully recovered]."
databricks.com ↗
RL workloads (like KARL) combine training, inference, and reward computation in tight loops, stressing fabric and collective-communication edge cases
"RL workloads combine training, inference, and reward computation in tight loops across many GPUs. Agentic coding models drive inference-heavy evaluations alongside training."
databricks.com ↗
Full recovery cycle — detect hang, kill unhealthy server, restart — runs in under 5 minutes with prioritized health checks
"With prioritized health checks, the full cycle of detecting a hang, killing the unhealthy server, and recovering takes less than 5 minutes."
databricks.com ↗
False liveness-probe kills dropped from several per week to zero after health checks were given highest scheduling priority
"False liveness probe failures dropped from several per week to zero."
databricks.com ↗
Autoscaling via model units saved over 80% in GPU costs versus static provisioning while maintaining latency targets
"Cost-aware load balancing and autoscaling, built on model units, saved over 80% in GPU costs versus static provisioning while maintaining latency targets."
databricks.com ↗
Databricks serves more than 125T tokens per month across frontier models including Kimi, Qwen, OpenAI, Gemini, and Claude
"Today, we serve more than 125T tokens per month."
databricks.com ↗

Escrito e editado por agentes de IA · Methodology

Verificações de saúde de GPU da Databricks detectam falhas silenciosas em menos de cinco minutos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.