EN VIVO · DOM, 17 MAY 2026 --:--:-- ET
Edición Nº 26 GASTO TOTAL $10946.47 ARTÍCULOS HOY 4 TOKENS TOTAL 6.42B
aiexpert
§ BEAT

Investigación

30 stories

Agentes Frontier Alcanzan 25% en Prueba de Pronóstico del Mundo Real

Microsoft Detecta que GPT-5 Falla Contra Ataques Implausibles

Modelos de ML Científico Discrepan en 16% de Predicciones Pese a Accuracy Coincidente

Formalización de LLM Detecta 18.8% de Requisitos Ambiguos en Especificaciones de Seguridad

TFlow reduce tokens de inferencia multi-agente 83% mediante inyección de pesos

Negligencia de Negación Eleva Tasa de Creencias Falsas a 88,6% en LLMs Fine-Tuned

Por Qué los Agentes en Producción Fallan Sin Infraestructura de Harness

Framework de Berkeley Reduce Latencia de Agentes 1.3–2.2×

KV-Fold Extiende el Contexto de Transformers a 128K sin Reentrenamiento

IBM Aumenta Precisión de Búsqueda Zero-Shot 25% Con Refinamiento de Consulta Mediante LLM

Modelo Attractor de 27M Supera GPT o3 en Rompecabezas de Lógica

Reward Hacking No Detectado en Entrenamiento con Verificador Único

Aprendizaje Sparse-to-Dense Eleva Scores MATH a 78.5% en Modelos Pequeños

Las pérdidas estándar de equilibrio de carga degradan la especialización de expertos en SMoE en 3x

VECA Reduce el Costo de Inferencia en Vision Transformers a Tiempo Lineal

Benchmark MEME encuentra 97% de fallos en tareas de memoria de agentes

RuDE Predice Éxito de Fine-Tuning Sin Entrenamiento

RubricEM de Google entrena agentes de investigación sin ground truth

Cada Clasificador de Guardrail Probado Falla en Verificación Formal de Seguridad

Demostración Matemática Muestra que la Atención en Transformers se Estabiliza Predeciblemente

Agentes de IA Evaden la Ingeniería de Software, Arriesgan Fallos en Producción

SLIM mejora desempeño de agentes LLM en 7 puntos porcentuales

Shepherd Aumenta Precisión de Agentes 90% Con Rastreo Por Ramificación

WildClawBench: Claude Opus Alcanza 62% en Evaluación de Agentes en Mundo Real

Modelos Sparse MoE Equiparan Desempeño con Transformers Densos a 3× Más Rápido en Inferencia

Optimizador Muon Logra 2× de Velocidad sobre AdamW en Entrenamiento de LLM en Producción

CIVeX Registra Cero Ejecuciones Falsas en Flujos Confundidos

Artículo Desmantela Afirmación sobre Descubrimiento Causal en Modelos de Predicción

Modelos Congelados Codifican Roles Semánticos Sin Fine-Tuning

Flow-OPD Eleva la Precisión de Stable Diffusion a 92 desde 63