§ BEAT
Investigación
Tres grandes benchmarks inflan las puntuaciones de agentes de código, descubre auditoría
Los Baselines de Prompting Simple Superan los Métodos de Supervisión Compleja
El Contexto del Idioma Original Recupera la Precisión Perdida en Cascadas Multilingües
La Probabilidad de Secuencia Falla como Señal de Inferencia en Producción
RiVER Permite Aprendizaje por Refuerzo Sin Etiquetas de Verdad Absoluta
La Alucinación de Modelos Mundiales es un Problema de Datos, No de Arquitectura
Benchmark FFASR Expone la Brecha en el Reconocimiento de Voz de Campo Lejano
Corrección de Regex Estricta Aumenta Recuperación de Calificación de Agentes en 60 Puntos Porcentuales
Aprendizaje en Contexto Amortizado Reduce el Costo de Servicio Few-Shot
Solo el 10,5% del Código Generado por IA Pasa Verificaciones de Seguridad
DiffusionGemma Desmiente Afirmaciones de Google sobre Decodificación Bloqueada
Reentrenamiento de Máscara Dispersa Iguala el Rendimiento de la Destilación de Política Completa
EvoArena Benchmark Revela Colapso de Agentes en Entornos en Evolución
La mitad de las correcciones de código generadas por IA fallan en la revisión humana
Recuperación de Tokens Cierra Brecha de Precisión Mientras Reduce a la Mitad el Cálculo de Inferencia de VLM
Las clasificaciones de LLM no predicen fiabilidad en producción
Grok 3 Supera a Biólogos Credenciados en Tareas de Laboratorio ADN Autónomo
FASE Reduce el Costo de Detección de Alucinaciones al 0.3% de los Rivales
El Esquema EvalCards Revela Brechas Metadatos de Comparación de IA Sistematizadas
Paneles de jueces diversos de proveedores eliminan sesgo en evaluaciones de modelos de lenguaje
Los LLM pueden inducir reglas ocultas, pero la ejecución procedural sigue sin resolver
SubFit Mantiene un 84.6% de Precisión Mientras Poda Capas de LLM a una Esparcimiento del 25%
Los problemas inversos lineales no protegen contra la alucinación por difusión
Modelos de Visión-Lenguaje Sin Ventaja en Alineación de Texto Solamente
MATCHA supera BERTScore en un 20% al detectar contradicciones semánticas
BRANE reduce el costo del agente de recuperación en un 89% por consulta
Benchmark Claw-Anything Establece un Límite de 34,5% para Agentes Always-On
Marco de Stanford Revela Defectos Ocultos en Benchmarks de IA
MobileGym Resuelve Reproducibilidad de Agentes Móviles a Escala