§ BEAT
Investigación
Agentes Frontier Alcanzan 25% en Prueba de Pronóstico del Mundo Real
Microsoft Detecta que GPT-5 Falla Contra Ataques Implausibles
Modelos de ML Científico Discrepan en 16% de Predicciones Pese a Accuracy Coincidente
Formalización de LLM Detecta 18.8% de Requisitos Ambiguos en Especificaciones de Seguridad
TFlow reduce tokens de inferencia multi-agente 83% mediante inyección de pesos
Negligencia de Negación Eleva Tasa de Creencias Falsas a 88,6% en LLMs Fine-Tuned
Por Qué los Agentes en Producción Fallan Sin Infraestructura de Harness
Framework de Berkeley Reduce Latencia de Agentes 1.3–2.2×
KV-Fold Extiende el Contexto de Transformers a 128K sin Reentrenamiento
IBM Aumenta Precisión de Búsqueda Zero-Shot 25% Con Refinamiento de Consulta Mediante LLM
Modelo Attractor de 27M Supera GPT o3 en Rompecabezas de Lógica
Reward Hacking No Detectado en Entrenamiento con Verificador Único
Aprendizaje Sparse-to-Dense Eleva Scores MATH a 78.5% en Modelos Pequeños
Las pérdidas estándar de equilibrio de carga degradan la especialización de expertos en SMoE en 3x
VECA Reduce el Costo de Inferencia en Vision Transformers a Tiempo Lineal
Benchmark MEME encuentra 97% de fallos en tareas de memoria de agentes
RuDE Predice Éxito de Fine-Tuning Sin Entrenamiento
RubricEM de Google entrena agentes de investigación sin ground truth
Cada Clasificador de Guardrail Probado Falla en Verificación Formal de Seguridad
Demostración Matemática Muestra que la Atención en Transformers se Estabiliza Predeciblemente
Agentes de IA Evaden la Ingeniería de Software, Arriesgan Fallos en Producción
SLIM mejora desempeño de agentes LLM en 7 puntos porcentuales
Shepherd Aumenta Precisión de Agentes 90% Con Rastreo Por Ramificación
WildClawBench: Claude Opus Alcanza 62% en Evaluación de Agentes en Mundo Real
Modelos Sparse MoE Equiparan Desempeño con Transformers Densos a 3× Más Rápido en Inferencia
Optimizador Muon Logra 2× de Velocidad sobre AdamW en Entrenamiento de LLM en Producción
CIVeX Registra Cero Ejecuciones Falsas en Flujos Confundidos
Artículo Desmantela Afirmación sobre Descubrimiento Causal en Modelos de Predicción
Modelos Congelados Codifican Roles Semánticos Sin Fine-Tuning