§ BEAT
Investigación
Las Explicaciones de Modelos de Lenguaje Rastrean Cambios de Comportamiento Automáticamente
Los modelos de visión-lenguaje enrutan el conocimiento a través de apenas el 2,5% de la red
Modelos Olvidan Reglas Aprendidas Durante el Entrenamiento
Los Modelos Multimodales Cambian de Respuesta Cuando Cambia el Orden de las Evidencias
DiffusionGemma de Google DeepMind es 28,6X más difícil de interpretar que modelos autorregressivos
MIT Extrae Lógica de Atención en Código Python Intercambiable
Jefes de Atención Dispersa Redirigen Modelos de Visión-Lenguaje con Precisión del 83%
Prueba sin etiquetas detecta mejor los fallos de razonamiento de LLM que la consistencia propia
Nueva Herramienta Detecta 1,060 Dependencias de Entrenamiento Ocultas en Principales LLM
Diagrama de Fases de Kamai Predice Fallas Multimodales Antes del Compromiso de GPU
EHC Real Benchmark Revela Límites de LLM en Acción Clínica
Echo-Memory Demuestra que los Modelos del Mundo Fallan en la Prueba de Revisita
El 64 Por Ciento de Conflictos Audio-Texto en Modelos de IA Son Solucionables
Marco de Stanford Mantiene a los Agentes de IA Dentro de los Objetivos de Violación
La Reproducción Autogenerada Reduce el Olvido Catastrófico en Modelos Ajustados
Estudio: Las Explicaciones Narrativas de IA Aumentan la Confianza del Usuario, No la Precisión
Framework DelTA Mejora el Razonamiento al Corregir la Asignación de Crédito a Nivel de Token
RELEX reconstruye checkpoints RLVR a partir del 15% de los datos de entrenamiento
Métricas de SAEBench Clasifican SAEs al Revés, Encuentra Auditoría
Demostración Matemática Muestra que la Atención en Transformers se Estabiliza Predeciblemente
SLIM mejora desempeño de agentes LLM en 7 puntos porcentuales
Shepherd Aumenta Precisión de Agentes 90% Con Rastreo Por Ramificación
Modelos Sparse MoE Equiparan Desempeño con Transformers Densos a 3× Más Rápido en Inferencia
Modelos Congelados Codifican Roles Semánticos Sin Fine-Tuning
Investigadores de Rice y Apple reducen FID 22% en generación de imágenes con corrección de tokens
Entropía del Primer Token Rivaliza Detección de Alucinación Multi-Muestra
Purdue y Georgia Tech Demuestran que los Transformers Extraen Features No-lineales en Contexto
Pruebas de Seguridad Fracasan Cuando el Modelo de Claude Oculta Sospechas en Su Interior
Detector de IA con Umbral Fijo Demuestra Robustez Más Allá de Dominios