§ BEAT
Investigación
El Entrenamiento de AutoMem Duplica el Desempeño del Agente en Tareas de Largo Horizonte
Una Capa Coincide con el Entrenamiento Completo de RL en Modelos Qwen
BrowserBC Eleva la Tasa de Éxito de Agentes de Navegador al 81% Utilizando Trazas Humanas
Las Explicaciones de Modelos de Lenguaje Rastrean Cambios de Comportamiento Automáticamente
TRIAGE Reduce Acciones de Agentes 14.8% Mientras Aumenta Tasas de Éxito
Los Baselines de Prompting Simple Superan los Métodos de Supervisión Compleja
Investigadores Cierran la Brecha entre Agentes de IA y Habilidades Curadas Manualmente
Nueva Técnica de Entrenamiento Mejora la Calibración de Confianza de LLM en 63%
Google Lanza Modelo Tabular Zero-Shot Pero Oculta Datos de Benchmark
Los modelos de visión-lenguaje enrutan el conocimiento a través de apenas el 2,5% de la red
Agentes de IA Duplican la Fricción de Merge a Nivel de Repositorio
El Contexto del Idioma Original Recupera la Precisión Perdida en Cascadas Multilingües
ENS Alcanza Precisión 10× en Benchmarks Difíciles de EDPs sin Bucles de Corrección
La Taxonomía de Mecanismo Eleva F1 de Moderación LLM en 5,4%
Pipeline de Código Abierto Logra 68% de Precisión Extrayendo Redes Políticas de Noticias
La Probabilidad de Secuencia Falla como Señal de Inferencia en Producción
RiVER Permite Aprendizaje por Refuerzo Sin Etiquetas de Verdad Absoluta
La Alucinación de Modelos Mundiales es un Problema de Datos, No de Arquitectura
Investigador Solitario Queda en 2º Lugar en el Desafío de Robot Doblador de Ropa de ICRA
Modelos Olvidan Reglas Aprendidas Durante el Entrenamiento
Señal de Puntuación Gratuita Emerge de los Padrón de Pós-Entrenamiento RL
Protocolo de Análisis Forense de DeepMind Diagnostica IA Confundida vs. Desalineada
Los Modelos Multimodales Cambian de Respuesta Cuando Cambia el Orden de las Evidencias
Las IAs de Voz en Producción Ignoran la Emoción, Aprobando Fraudes y Terminando Llamadas de Cuidado
El Modelo 397B de Qwen Simula Entornos de Agentes Mejor que GPT-5.4
Benchmark FFASR Expone la Brecha en el Reconocimiento de Voz de Campo Lejano
Corrección de Regex Estricta Aumenta Recuperación de Calificación de Agentes en 60 Puntos Porcentuales
InSight Permite que los Robots Aprendan Autónomamente Nuevas Tareas
Dataset OpenThoughts-Agent Alcanza 44.8% en Benchmarks de Agentes