Modelos de ML Científico Discrepan en 16% de Predicciones Pese a Accuracy Coincidente

Investigación del Helmholtz-Zentrum Berlin y Friedrich Schiller University Jena publicada el 13 de mayo cuantifica un modo de fallo que pipelines de ML científico han estado ignorando: dos clasificadores entrenados en bootstraps independientes del mismo conjunto de datos discrepan en 8,0–21,8% de las predicciones de prueba, incluso cuando sus scores de accuracy se alinean dentro de 1,3–4,2 puntos porcentuales. Gordan Prastalo y Kevin Maik Jablonka probaron 9 benchmarks de química con implicaciones directas para equipos de cribado de fármacos y descubrimiento de materiales donde la salida del modelo orienta decisiones experimentales.

La métrica es cross-sample prediction churn—la fracción de predicciones del conjunto de prueba que invierten la clase cuando reentrenas en una nueva muestra de la misma población de entrenamiento. En pipelines de virtual screening, loops de optimización Bayesiana y sistemas de active learning, la asignación de clase del modelo determina si una molécula dada se sintetiza. Un delta de accuracy agregado de 1,8 puntos porcentuales parece aceptable en tablas de benchmark. Dieciséis por ciento de moléculas invirtiendo silenciosamente de clase en cada ciclo de reentrenamiento no lo es—métricas agregadas lo ocultan completamente.

Tres técnicas estándar de gestión de incertidumbre—deep ensembles, MC dropout y stochastic weight averaging—fallan aquí. Las tres muestrean sobre pesos en datos fijos, capturando varianza del lado de parámetros mientras pierden variación de muestreo de datos. En 9 benchmarks, estos métodos desplazan churn por −22,3% a +12,5% relativo a empirical risk minimisation, sin dirección consistente. Desplegar un deep ensemble es indistinguible de desplegar ERM simple en términos de churn.

Dos métodos del lado de datos reducen churn. K-bootstrap bagging corta churn 40–54% en cada dataset sin costo de accuracy; overhead computacional es K× ERM. Twin-bootstrap es la contribución primaria del paper: dos redes entrenadas conjuntamente en bootstraps independientes con una loss de consistencia de divergencia KL simétrica forzando acuerdo entre distribuciones de salida. En compute equivalente a 2×-ERM—comparable a bagging-K=2—twin-bootstrap entrega una reducción mediana de 45% de churn más allá de bagging-K=2. En el benchmark BACE bioactivity, la tasa media de class-flip cae de 16,1% bajo ERM a 5,7% bajo twin-bootstrap.

Los 9 benchmarks abarcan MoleculeNet, TDC ADME and Tox, y tareas de clasificación de materials-science—conjuntos de datos moleculares pequeño-a-mediano donde varianza de data-sampling domina. Los autores argumentan que churn merece su propia columna en reportes de benchmark de ML científico junto a accuracy, AUC y calibration. Sin ella, métodos del lado de parámetros y lado de datos lucen idénticos en métricas reportadas.

Ninguna evidencia de despliegue en producción se proporciona. El paper no reporta latencia ni overhead de inferencia para twin-bootstrap en tiempo de serving, no extiende resultados a regresión, y no examina si predicciones con churn se agrupan cerca de decision boundaries. Esta brecha importa operacionalmente: si predicciones inestables se concentran en casos ambiguos, un threshold de confianza puede ser más barato que reentrenamiento con twin-bootstrap.

Antes de conectar cualquier clasificador de ML científico en un sistema de loop cerrado, ejecuta un audit de churn de dos-bootstrap—entrena dos modelos en bootstraps independientes y cuenta desacuerdos de etiqueta en tu conjunto hold-out. Si ese número excede 10%, tu accuracy agregada está ocultando inestabilidad que aparecerá como divergencia entre runs de reentrenamiento. Deep ensembles y MC dropout no te salvarán.

Sources

Two classifiers trained on independent bootstraps of the same training set disagree on the class label of 8.0–21.8% of test molecules across 9 chemistry benchmarks, while aggregate accuracy differs by only 1.3–4.2 percentage points
"two classifiers trained on independent bootstraps of the same training set agree on aggregate accuracy to within 1.3–4.2 percentage points but disagree on the class label of 8.0–21.8% of test molecules"
arxiv.org ↗
Deep ensembles, MC dropout, and stochastic weight averaging shift churn by −22.3% to +12.5% relative to ERM with no consistent direction
"across our 9 chemistry benchmarks, the three together shift the class-flip rate by −22.3% to +12.5% relative to empirical risk minimisation (ERM), with no consistent sign"
arxiv.org ↗
K-bootstrap bagging cuts churn 40–54% on every dataset at no accuracy cost, at K×-ERM compute
"K-bootstrap bagging, which cuts the rate 40–54% on every dataset at no accuracy cost (K×-ERM compute)"
arxiv.org ↗
Twin-bootstrap reduces churn a further median 45% beyond bagging-K=2 at matched 2×-ERM compute
"reduces churn a further median 45% beyond bagging-K=2"
arxiv.org ↗
On the BACE bioactivity benchmark, the mean class-flip rate drops from 16.1% under ERM to 5.7% under twin-bootstrap
"The mean class-flip rate over the full test set drops from 16.1% (ERM) to 5.7% (twin-bootstrap)"
arxiv.org ↗
Twin-bootstrap trains two networks jointly on independent bootstraps with a symmetric KL divergence consistency loss between their predictions
"two networks trained jointly on independent bootstraps with a sym-KL consistency loss between their predictions"
arxiv.org ↗
The benchmarks span MoleculeNet, TDC ADME and Tox, and materials-science classification tasks
"On 9 chemistry benchmarks (MoleculeNet, TDC ADME and Tox, materials-science), per-prediction churn flips 8.0–21.8% of test predictions"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Modelos de ML Científico Discrepan en 16% de Predicciones Pese a Accuracy Coincidente

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.