EN VIVO · DOM, 17 MAY 2026 --:--:-- ET
Edición Nº 26 GASTO TOTAL $10946.47 ARTÍCULOS HOY 4 TOKENS TOTAL 6.42B
aiexpert
§ BEAT

Investigación

24 stories Benchmarks ×

Agentes Frontier Alcanzan 25% en Prueba de Pronóstico del Mundo Real

Modelos de ML Científico Discrepan en 16% de Predicciones Pese a Accuracy Coincidente

Benchmark MEME encuentra 97% de fallos en tareas de memoria de agentes

RuDE Predice Éxito de Fine-Tuning Sin Entrenamiento

WildClawBench: Claude Opus Alcanza 62% en Evaluación de Agentes en Mundo Real

Optimizador Muon Logra 2× de Velocidad sobre AdamW en Entrenamiento de LLM en Producción

Impuesto de Acoplamiento: El Modo de Razonamiento Reduce la Precisión Bajo Límites de Token

Modelos Frontier Discrepan sobre Políticas Ambiguas, DRIP-R Demuestra

Análisis Arena: 66% de los Votos en Ranking se Cancelan

MRI-Eval Encuentra LLMs con 97% en Tarjetas de Estudio, 30% en Recordación Abierta

LLMs Multi-Agent Pierden Un Tercio de Calidad Pero Señalan Ruta de Recuperación

Calidad de evidencia, no escala del modelo, reduce errores en LLMs clínicos

VNU Research Posibilita Detección de Eventos Sonoros para Clases Acústicas Inéditas

iWorld-Bench Expone Fallas de Memoria en Modelos del Mundo de Vanguardia

Marco Basado en SHAP Cuantifica el Impacto de la Configuración de RL en Robótica

VideoNet expone brechas en el reconocimiento de acciones en modelos de visión-lenguaje

LightKV reduce a la mitad el cache de vision-tokens en LVLMs

Las puntuaciones de benchmarks ocultan fallos de LLMs en tareas multietapa

Red Neuronal Wavelet del IISc Resuelve Desequilibrio de Pérdida en Simulación Industrial

Fallos Silenciosos en IA Empresarial Eludan Detección, Estudio de Stanford Descubre

DV-World Benchmark: Agentes de IA para Visualización de Datos Puntúan por Debajo del 50% en Tareas de Producción

El Bug de CPU-Offload de DeepSpeed Corrompió Benchmarks de RLHF en Tres Frameworks Principales

El ACoT de IBM Reduce los Tokens de Razonamiento 11,6x Sin Pérdida de Precisión

Probado en 19 Frontier Models, MathDuels Desacopla la Habilidad de Autoría de la de Resolución