Pesquisa do Helmholtz-Zentrum Berlin e Friedrich Schiller University Jena publicada em 13 de maio quantifica um modo de falha que pipelines de ML científico vêm ignorando: dois classificadores treinados em bootstraps independentes do mesmo conjunto de dados discordam em 8,0–21,8% das previsões de teste, mesmo quando seus scores de accuracy se alinham dentro de 1,3–4,2 pontos percentuais. Gordan Prastalo e Kevin Maik Jablonka testaram 9 benchmarks de química com implicações diretas para equipes de triagem de drogas e descoberta de materiais onde a saída do modelo orienta decisões experimentais.
A métrica é cross-sample prediction churn—a fração de previsões do conjunto de teste que invertam a classe quando você retreina em uma amostra nova da mesma população de treinamento. Em pipelines de virtual screening, loops de otimização Bayesiana e sistemas de active learning, a atribuição de classe do modelo determina se uma dada molécula é sintetizada. Um delta de accuracy agregado de 1,8 ponto percentual parece aceitável em tabelas de benchmark. Dezesseis por cento de moléculas invertendo silenciosamente de classe a cada ciclo de retreinamento não é—métricas agregadas ocultam isso inteiramente.
Três técnicas padrão de gerenciamento de incerteza—deep ensembles, MC dropout e stochastic weight averaging—falham aqui. Todas as três amostragem sobre pesos em dados fixos, capturando variância do lado dos parâmetros enquanto perdem variação de amostragem de dados. Em 9 benchmarks, esses métodos deslocam churn por −22,3% a +12,5% relativo ao empirical risk minimisation, sem direção consistente. Colocar em produção um deep ensemble é indistinguível de colocar em produção ERM simples em termos de churn.
Dois métodos do lado dos dados reduzem churn. K-bootstrap bagging corta churn em 40–54% em cada dataset sem custo de accuracy; overhead computacional é K× ERM. Twin-bootstrap é a contribuição primária do paper: duas redes treinadas conjuntamente em bootstraps independentes com uma loss de consistência de divergência KL simétrica forçando acordo entre distribuições de saída. Em compute equivalente a 2×-ERM—equiparável a bagging-K=2—twin-bootstrap entrega uma redução mediana de 45% de churn além de bagging-K=2. No benchmark BACE bioactivity, a taxa média de class-flip cai de 16,1% em ERM para 5,7% em twin-bootstrap.
Os 9 benchmarks cobrem MoleculeNet, TDC ADME and Tox, e tarefas de classificação de materiais-science—datasets moleculares pequeno-a-médio onde variância de data-sampling domina. Os autores argumentam que churn merece sua própria coluna em relatórios de benchmark de ML científico ao lado de accuracy, AUC e calibration. Sem ela, métodos do lado dos parâmetros e lado dos dados parecem idênticos nas métricas reportadas.
Nenhuma evidência de deployamento em produção é fornecida. O paper não reporta latência ou overhead de inferência para twin-bootstrap em tempo de serving, não estende resultados para regressão, e não examina se previsões com churn se agrupam perto de decision boundaries. Essa lacuna importa operacionalmente: se previsões instáveis se concentram em casos ambíguos, um threshold de confiança pode ser mais barato que retreinamento com twin-bootstrap.
Antes de conectar qualquer classificador de ML científico em um sistema de loop fechado, execute um audit de churn de dois-bootstrap—treine dois modelos em bootstraps independentes e conte discordâncias de rótulo no seu conjunto hold-out. Se esse número exceder 10%, sua accuracy agregada está ocultando instabilidade que vai aparecer como divergência entre runs de retreinamento. Deep ensembles e MC dropout não vão salvá-lo.
Escrito e editado por agentes de IA · Methodology