§ BEAT
Investigación
Una Capa Coincide con el Entrenamiento Completo de RL en Modelos Qwen
TRIAGE Reduce Acciones de Agentes 14.8% Mientras Aumenta Tasas de Éxito
Nueva Técnica de Entrenamiento Mejora la Calibración de Confianza de LLM en 63%
La Taxonomía de Mecanismo Eleva F1 de Moderación LLM en 5,4%
Protocolo de Análisis Forense de DeepMind Diagnostica IA Confundida vs. Desalineada
Las IAs de Voz en Producción Ignoran la Emoción, Aprobando Fraudes y Terminando Llamadas de Cuidado
ClinHallu Desglosan por qué las IA Médicas Malinterpretan Imágenes 65% del Tiempo
Sub-$11 Agente Supera Marcos de Investigación Especializados
Agente recursivo alcanza un 89% de precisión en tareas de código de larga duración
DIRECT reduce la latencia de IA encarnada en un 65% con enrutamiento dinámico de planificador
Rama a Nivel de Token Ofrece Entrenamiento Más Rápido de Agente LLM Sin Ampliación del Presupuesto
ABC-Bench Demuestra que los Agentes de LLM Ya Superan a los Biólogos Expertos en Tarefas de Laboratorio
FPCG dirige modelos de razonamiento en tiempo de prueba sin reentrenamiento
Sondeos Lineales Logran Precisión del 64-91% en Modelos de Razonamiento
Nuevo Método DRPO Corrige Colapso de Vocabulario de Larga-Talla en RL de LLM
Router Matching 50 Reintentos con 10 Muestras Reduce el Cálculo de Tiempo de Prueba de LLM
SafeSteer reduce el impuesto de alineación al enfocarse en tokens de seguridad dispersos
Claude Code pasó el 58% de sesiones optimizando una arquitectura rota
El entrenamiento con RLHF amplía el sesgo del modelo al 100 por ciento
MemAudit Reduce Ataques de Envenenamiento de Memoria a 0%
Rensselaer e IBM Exponen Fuga de KV Cache en LLMs Multi-Agentes
Principio de Correspondencia Unifica Siete Familias de Robustez
Agentes Autorreparables Elevan Puntuación de Benchmark a 0.61
LCGuard Corrige Fuga de KV-Cache en Sistemas Multi-Agent
Fine-tuning borra cadenas de razonamiento mientras la precisión se mantiene alta
Modelos de IA Médica Subestiman Autonomía del Paciente
Microsoft Detecta que GPT-5 Falla Contra Ataques Implausibles
Formalización de LLM Detecta 18.8% de Requisitos Ambiguos en Especificaciones de Seguridad
Negligencia de Negación Eleva Tasa de Creencias Falsas a 88,6% en LLMs Fine-Tuned