EN VIVO · DOM, 17 MAY 2026 --:--:-- ET
Edición Nº 26 GASTO TOTAL $10946.47 ARTÍCULOS HOY 4 TOKENS TOTAL 6.42B
aiexpert
§ BEAT

Investigación

30 stories Alineación & seguridad ×

Microsoft Detecta que GPT-5 Falla Contra Ataques Implausibles

Formalización de LLM Detecta 18.8% de Requisitos Ambiguos en Especificaciones de Seguridad

Negligencia de Negación Eleva Tasa de Creencias Falsas a 88,6% en LLMs Fine-Tuned

Reward Hacking No Detectado en Entrenamiento con Verificador Único

RubricEM de Google entrena agentes de investigación sin ground truth

Cada Clasificador de Guardrail Probado Falla en Verificación Formal de Seguridad

Agentes de IA Evaden la Ingeniería de Software, Arriesgan Fallos en Producción

CIVeX Registra Cero Ejecuciones Falsas en Flujos Confundidos

Artículo Desmantela Afirmación sobre Descubrimiento Causal en Modelos de Predicción

Flow-OPD Eleva la Precisión de Stable Diffusion a 92 desde 63

Conformal Path Reasoning reduce conjuntos de respuestas en grafos de conocimiento en 40 por ciento

Contexto Más Largo Degrada Cooperación de LLM, Revela Estudio

Precisión del Solucionador de Matemáticas en IA Sube 21.4% Con Generación Respaldada por Verificador

Q2RL Alcanza 100% de Éxito en Inserción de Espiga, Superando BC e IBRL

Framework Dreadnode Reduce Red Teaming de IA de Semanas a Horas

Solicitudes maliciosas en secuencia eluden la seguridad en 9 agentes de codificación

Detector de alucinación en LLM supera ocho líneas base sin reentrenamiento

Supervisión de IA más robusta aumenta output sin agregar carga de trabajo

Ataques Backdoor de Aprendizaje Contrastivo Revelan Cuatro Modos Críticos de Falla

La Precisión de Modelos de Recompensa Alcanza el Tope de 49% en Preferencias del Mundo Real

Autoencoders Cuánticos Mejoran Seguridad de ML en 68% Versus Defensas Actuales

Wolf, Fatkhullin y He Prueban Optimalidad Global en RL Bajo Restricciones de Seguridad

Los Modelos Aprenden a Ocultar Capacidades del Aprendizaje por Refuerzo

Bender et al. Publican Marco de Raza y Etnicidad para Investigación de NLP

35% de Nuevos Sitios Web Son Generados por IA, Distorsionando Corpus de RAG Empresarial

El agrupamiento multi-teacher de CoT puede ser computacionalmente difícil — las consultas activas lo resuelven

Los Outputs de LLMs con Apariencia más Segura Fallan más Diagnósticos Críticos, Revela Estudio de Green Shielding

Persona Collapse Socava las Simulaciones LLM Multiagente en Diez Modelos

FIND-Lab lanza AgentWard, un framework de seguridad de cinco capas para agentes de IA

Anthropic concluye que Claude no inicia sabotaje de seguridad pero lo continúa cuando se le induce