Modelos de ML Científico Discordam em 16% das Previsões Apesar de Accuracy Coincidente

Pesquisa do Helmholtz-Zentrum Berlin e Friedrich Schiller University Jena publicada em 13 de maio quantifica um modo de falha que pipelines de ML científico vêm ignorando: dois classificadores treinados em bootstraps independentes do mesmo conjunto de dados discordam em 8,0–21,8% das previsões de teste, mesmo quando seus scores de accuracy se alinham dentro de 1,3–4,2 pontos percentuais. Gordan Prastalo e Kevin Maik Jablonka testaram 9 benchmarks de química com implicações diretas para equipes de triagem de drogas e descoberta de materiais onde a saída do modelo orienta decisões experimentais.

A métrica é cross-sample prediction churn—a fração de previsões do conjunto de teste que invertam a classe quando você retreina em uma amostra nova da mesma população de treinamento. Em pipelines de virtual screening, loops de otimização Bayesiana e sistemas de active learning, a atribuição de classe do modelo determina se uma dada molécula é sintetizada. Um delta de accuracy agregado de 1,8 ponto percentual parece aceitável em tabelas de benchmark. Dezesseis por cento de moléculas invertendo silenciosamente de classe a cada ciclo de retreinamento não é—métricas agregadas ocultam isso inteiramente.

Três técnicas padrão de gerenciamento de incerteza—deep ensembles, MC dropout e stochastic weight averaging—falham aqui. Todas as três amostragem sobre pesos em dados fixos, capturando variância do lado dos parâmetros enquanto perdem variação de amostragem de dados. Em 9 benchmarks, esses métodos deslocam churn por −22,3% a +12,5% relativo ao empirical risk minimisation, sem direção consistente. Colocar em produção um deep ensemble é indistinguível de colocar em produção ERM simples em termos de churn.

Dois métodos do lado dos dados reduzem churn. K-bootstrap bagging corta churn em 40–54% em cada dataset sem custo de accuracy; overhead computacional é K× ERM. Twin-bootstrap é a contribuição primária do paper: duas redes treinadas conjuntamente em bootstraps independentes com uma loss de consistência de divergência KL simétrica forçando acordo entre distribuições de saída. Em compute equivalente a 2×-ERM—equiparável a bagging-K=2—twin-bootstrap entrega uma redução mediana de 45% de churn além de bagging-K=2. No benchmark BACE bioactivity, a taxa média de class-flip cai de 16,1% em ERM para 5,7% em twin-bootstrap.

Os 9 benchmarks cobrem MoleculeNet, TDC ADME and Tox, e tarefas de classificação de materiais-science—datasets moleculares pequeno-a-médio onde variância de data-sampling domina. Os autores argumentam que churn merece sua própria coluna em relatórios de benchmark de ML científico ao lado de accuracy, AUC e calibration. Sem ela, métodos do lado dos parâmetros e lado dos dados parecem idênticos nas métricas reportadas.

Nenhuma evidência de deployamento em produção é fornecida. O paper não reporta latência ou overhead de inferência para twin-bootstrap em tempo de serving, não estende resultados para regressão, e não examina se previsões com churn se agrupam perto de decision boundaries. Essa lacuna importa operacionalmente: se previsões instáveis se concentram em casos ambíguos, um threshold de confiança pode ser mais barato que retreinamento com twin-bootstrap.

Antes de conectar qualquer classificador de ML científico em um sistema de loop fechado, execute um audit de churn de dois-bootstrap—treine dois modelos em bootstraps independentes e conte discordâncias de rótulo no seu conjunto hold-out. Se esse número exceder 10%, sua accuracy agregada está ocultando instabilidade que vai aparecer como divergência entre runs de retreinamento. Deep ensembles e MC dropout não vão salvá-lo.

Sources

Two classifiers trained on independent bootstraps of the same training set disagree on the class label of 8.0–21.8% of test molecules across 9 chemistry benchmarks, while aggregate accuracy differs by only 1.3–4.2 percentage points
"two classifiers trained on independent bootstraps of the same training set agree on aggregate accuracy to within 1.3–4.2 percentage points but disagree on the class label of 8.0–21.8% of test molecules"
arxiv.org ↗
Deep ensembles, MC dropout, and stochastic weight averaging shift churn by −22.3% to +12.5% relative to ERM with no consistent direction
"across our 9 chemistry benchmarks, the three together shift the class-flip rate by −22.3% to +12.5% relative to empirical risk minimisation (ERM), with no consistent sign"
arxiv.org ↗
K-bootstrap bagging cuts churn 40–54% on every dataset at no accuracy cost, at K×-ERM compute
"K-bootstrap bagging, which cuts the rate 40–54% on every dataset at no accuracy cost (K×-ERM compute)"
arxiv.org ↗
Twin-bootstrap reduces churn a further median 45% beyond bagging-K=2 at matched 2×-ERM compute
"reduces churn a further median 45% beyond bagging-K=2"
arxiv.org ↗
On the BACE bioactivity benchmark, the mean class-flip rate drops from 16.1% under ERM to 5.7% under twin-bootstrap
"The mean class-flip rate over the full test set drops from 16.1% (ERM) to 5.7% (twin-bootstrap)"
arxiv.org ↗
Twin-bootstrap trains two networks jointly on independent bootstraps with a symmetric KL divergence consistency loss between their predictions
"two networks trained jointly on independent bootstraps with a sym-KL consistency loss between their predictions"
arxiv.org ↗
The benchmarks span MoleculeNet, TDC ADME and Tox, and materials-science classification tasks
"On 9 chemistry benchmarks (MoleculeNet, TDC ADME and Tox, materials-science), per-prediction churn flips 8.0–21.8% of test predictions"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Modelos de ML Científico Discordam em 16% das Previsões Apesar de Accuracy Coincidente

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.