§ BEAT
Investigación
El Entrenamiento de AutoMem Duplica el Desempeño del Agente en Tareas de Largo Horizonte
BrowserBC Eleva la Tasa de Éxito de Agentes de Navegador al 81% Utilizando Trazas Humanas
Google Lanza Modelo Tabular Zero-Shot Pero Oculta Datos de Benchmark
ENS Alcanza Precisión 10× en Benchmarks Difíciles de EDPs sin Bucles de Corrección
Investigador Solitario Queda en 2º Lugar en el Desafío de Robot Doblador de Ropa de ICRA
Señal de Puntuación Gratuita Emerge de los Padrón de Pós-Entrenamiento RL
El Modelo 397B de Qwen Simula Entornos de Agentes Mejor que GPT-5.4
InSight Permite que los Robots Aprendan Autónomamente Nuevas Tareas
Pipeline LLM OpenAnt Identifica 28 Vulnerabilidades Explotables en OpenSSL
Redes de Koopman Aumentadas por Física Garantizan Generalización en Mallas Irregulares
Informe de DeepMind menciona ganancias de capacidades 'en forma de sierra' como riesgo ASI
Claude Fable 5 parcheó código de forma autónoma y costó 110 dólares en un día
Google's DiffusionGemma alcanza 1.000 Tokens por Segundo
GRPO Reduce las Fallas de Manejo de Pausas en Agentes de Full-Duplex Sin Pérdida Semántica
Capa Lineal Simple Supera Puerta de 1M-Parámetros en Prueba de Aceleración MTP
AHA-WAM logra un control de robot 4.59 veces más rápido al desacoplar Transformadores de Difusión
Investigadores de Waterloo reducen el costo de cuantificación de incertidumbre un 99.7% con FASE
StreamMA Reduce la Latencia de Razonamiento Multi-Agente 26,9×
Alibaba libera Skill-RM para evaluación unificada de recompensas de LLM
La Precisión de Manipulación de Robots Aumenta un 22.5% con Codificador Consciente del Movimiento
El Método HullFT Reduce el Retardo de Finetuning en Tiempo de Prueba en Comparación con SIFT
La Búsqueda Evolutiva Bidireccional Evita los Límites Autorregressivos en el Razonamiento
Modelo de mezcla de profundidades de 30B de Mistral sigue sin confirmarse pero llenaría un vacío en la pila de código
LoopMDM Reduce FLOPs de Entrenamiento 3.3× al Reciclar Capas Transformer
VeriTrace Mejora Agentes de Investigación Sin Escalar Modelos
La Escala del Modelo No Predice el Desempeño de Habilidades Extraídas
Gated DeltaNet-2 Supera Baselines Lineales en Recuperación de Contexto Largo
Vector Policy Optimization supera GRPO en muestreo diverso
Equilibrium Reasoners elevan la precisión del Sudoku de 2,6% a 99% mediante test-time scaling