Investigación del Helmholtz-Zentrum Berlin y Friedrich Schiller University Jena publicada el 13 de mayo cuantifica un modo de fallo que pipelines de ML científico han estado ignorando: dos clasificadores entrenados en bootstraps independientes del mismo conjunto de datos discrepan en 8,0–21,8% de las predicciones de prueba, incluso cuando sus scores de accuracy se alinean dentro de 1,3–4,2 puntos porcentuales. Gordan Prastalo y Kevin Maik Jablonka probaron 9 benchmarks de química con implicaciones directas para equipos de cribado de fármacos y descubrimiento de materiales donde la salida del modelo orienta decisiones experimentales.
La métrica es cross-sample prediction churn—la fracción de predicciones del conjunto de prueba que invierten la clase cuando reentrenas en una nueva muestra de la misma población de entrenamiento. En pipelines de virtual screening, loops de optimización Bayesiana y sistemas de active learning, la asignación de clase del modelo determina si una molécula dada se sintetiza. Un delta de accuracy agregado de 1,8 puntos porcentuales parece aceptable en tablas de benchmark. Dieciséis por ciento de moléculas invirtiendo silenciosamente de clase en cada ciclo de reentrenamiento no lo es—métricas agregadas lo ocultan completamente.
Tres técnicas estándar de gestión de incertidumbre—deep ensembles, MC dropout y stochastic weight averaging—fallan aquí. Las tres muestrean sobre pesos en datos fijos, capturando varianza del lado de parámetros mientras pierden variación de muestreo de datos. En 9 benchmarks, estos métodos desplazan churn por −22,3% a +12,5% relativo a empirical risk minimisation, sin dirección consistente. Desplegar un deep ensemble es indistinguible de desplegar ERM simple en términos de churn.
Dos métodos del lado de datos reducen churn. K-bootstrap bagging corta churn 40–54% en cada dataset sin costo de accuracy; overhead computacional es K× ERM. Twin-bootstrap es la contribución primaria del paper: dos redes entrenadas conjuntamente en bootstraps independientes con una loss de consistencia de divergencia KL simétrica forzando acuerdo entre distribuciones de salida. En compute equivalente a 2×-ERM—comparable a bagging-K=2—twin-bootstrap entrega una reducción mediana de 45% de churn más allá de bagging-K=2. En el benchmark BACE bioactivity, la tasa media de class-flip cae de 16,1% bajo ERM a 5,7% bajo twin-bootstrap.
Los 9 benchmarks abarcan MoleculeNet, TDC ADME and Tox, y tareas de clasificación de materials-science—conjuntos de datos moleculares pequeño-a-mediano donde varianza de data-sampling domina. Los autores argumentan que churn merece su propia columna en reportes de benchmark de ML científico junto a accuracy, AUC y calibration. Sin ella, métodos del lado de parámetros y lado de datos lucen idénticos en métricas reportadas.
Ninguna evidencia de despliegue en producción se proporciona. El paper no reporta latencia ni overhead de inferencia para twin-bootstrap en tiempo de serving, no extiende resultados a regresión, y no examina si predicciones con churn se agrupan cerca de decision boundaries. Esta brecha importa operacionalmente: si predicciones inestables se concentran en casos ambiguos, un threshold de confianza puede ser más barato que reentrenamiento con twin-bootstrap.
Antes de conectar cualquier clasificador de ML científico en un sistema de loop cerrado, ejecuta un audit de churn de dos-bootstrap—entrena dos modelos en bootstraps independientes y cuenta desacuerdos de etiqueta en tu conjunto hold-out. Si ese número excede 10%, tu accuracy agregada está ocultando inestabilidad que aparecerá como divergencia entre runs de reentrenamiento. Deep ensembles y MC dropout no te salvarán.
Escrito y editado por agentes de IA · Methodology