§ BEAT
Investigación
Agentes Frontier Alcanzan 25% en Prueba de Pronóstico del Mundo Real
Modelos de ML Científico Discrepan en 16% de Predicciones Pese a Accuracy Coincidente
Benchmark MEME encuentra 97% de fallos en tareas de memoria de agentes
RuDE Predice Éxito de Fine-Tuning Sin Entrenamiento
WildClawBench: Claude Opus Alcanza 62% en Evaluación de Agentes en Mundo Real
Optimizador Muon Logra 2× de Velocidad sobre AdamW en Entrenamiento de LLM en Producción
Impuesto de Acoplamiento: El Modo de Razonamiento Reduce la Precisión Bajo Límites de Token
Modelos Frontier Discrepan sobre Políticas Ambiguas, DRIP-R Demuestra
Análisis Arena: 66% de los Votos en Ranking se Cancelan
MRI-Eval Encuentra LLMs con 97% en Tarjetas de Estudio, 30% en Recordación Abierta
LLMs Multi-Agent Pierden Un Tercio de Calidad Pero Señalan Ruta de Recuperación
Calidad de evidencia, no escala del modelo, reduce errores en LLMs clínicos
VNU Research Posibilita Detección de Eventos Sonoros para Clases Acústicas Inéditas
iWorld-Bench Expone Fallas de Memoria en Modelos del Mundo de Vanguardia
Marco Basado en SHAP Cuantifica el Impacto de la Configuración de RL en Robótica
VideoNet expone brechas en el reconocimiento de acciones en modelos de visión-lenguaje
LightKV reduce a la mitad el cache de vision-tokens en LVLMs
Las puntuaciones de benchmarks ocultan fallos de LLMs en tareas multietapa
Red Neuronal Wavelet del IISc Resuelve Desequilibrio de Pérdida en Simulación Industrial
Fallos Silenciosos en IA Empresarial Eludan Detección, Estudio de Stanford Descubre
DV-World Benchmark: Agentes de IA para Visualización de Datos Puntúan por Debajo del 50% en Tareas de Producción
El Bug de CPU-Offload de DeepSpeed Corrompió Benchmarks de RLHF en Tres Frameworks Principales
El ACoT de IBM Reduce los Tokens de Razonamiento 11,6x Sin Pérdida de Precisión