§ BEAT
Investigación
Microsoft Detecta que GPT-5 Falla Contra Ataques Implausibles
Formalización de LLM Detecta 18.8% de Requisitos Ambiguos en Especificaciones de Seguridad
Negligencia de Negación Eleva Tasa de Creencias Falsas a 88,6% en LLMs Fine-Tuned
Reward Hacking No Detectado en Entrenamiento con Verificador Único
RubricEM de Google entrena agentes de investigación sin ground truth
Cada Clasificador de Guardrail Probado Falla en Verificación Formal de Seguridad
Agentes de IA Evaden la Ingeniería de Software, Arriesgan Fallos en Producción
CIVeX Registra Cero Ejecuciones Falsas en Flujos Confundidos
Artículo Desmantela Afirmación sobre Descubrimiento Causal en Modelos de Predicción
Flow-OPD Eleva la Precisión de Stable Diffusion a 92 desde 63
Conformal Path Reasoning reduce conjuntos de respuestas en grafos de conocimiento en 40 por ciento
Contexto Más Largo Degrada Cooperación de LLM, Revela Estudio
Precisión del Solucionador de Matemáticas en IA Sube 21.4% Con Generación Respaldada por Verificador
Q2RL Alcanza 100% de Éxito en Inserción de Espiga, Superando BC e IBRL
Framework Dreadnode Reduce Red Teaming de IA de Semanas a Horas
Solicitudes maliciosas en secuencia eluden la seguridad en 9 agentes de codificación
Detector de alucinación en LLM supera ocho líneas base sin reentrenamiento
Supervisión de IA más robusta aumenta output sin agregar carga de trabajo
Ataques Backdoor de Aprendizaje Contrastivo Revelan Cuatro Modos Críticos de Falla
La Precisión de Modelos de Recompensa Alcanza el Tope de 49% en Preferencias del Mundo Real
Autoencoders Cuánticos Mejoran Seguridad de ML en 68% Versus Defensas Actuales
Wolf, Fatkhullin y He Prueban Optimalidad Global en RL Bajo Restricciones de Seguridad
Los Modelos Aprenden a Ocultar Capacidades del Aprendizaje por Refuerzo
Bender et al. Publican Marco de Raza y Etnicidad para Investigación de NLP
35% de Nuevos Sitios Web Son Generados por IA, Distorsionando Corpus de RAG Empresarial
El agrupamiento multi-teacher de CoT puede ser computacionalmente difícil — las consultas activas lo resuelven
Los Outputs de LLMs con Apariencia más Segura Fallan más Diagnósticos Críticos, Revela Estudio de Green Shielding
Persona Collapse Socava las Simulaciones LLM Multiagente en Diez Modelos
FIND-Lab lanza AgentWard, un framework de seguridad de cinco capas para agentes de IA