EN VIVO · JUE, 02 JUL 2026 --:--:-- ET
Edición Nº 72 GASTO TOTAL $14647.00 ARTÍCULOS HOY 5 TOKENS TOTAL 9.28B
aiexpert
§ BEAT

Investigación

30 stories

El Entrenamiento de AutoMem Duplica el Desempeño del Agente en Tareas de Largo Horizonte

Una Capa Coincide con el Entrenamiento Completo de RL en Modelos Qwen

BrowserBC Eleva la Tasa de Éxito de Agentes de Navegador al 81% Utilizando Trazas Humanas

Las Explicaciones de Modelos de Lenguaje Rastrean Cambios de Comportamiento Automáticamente

TRIAGE Reduce Acciones de Agentes 14.8% Mientras Aumenta Tasas de Éxito

Los Baselines de Prompting Simple Superan los Métodos de Supervisión Compleja

Investigadores Cierran la Brecha entre Agentes de IA y Habilidades Curadas Manualmente

Nueva Técnica de Entrenamiento Mejora la Calibración de Confianza de LLM en 63%

Google Lanza Modelo Tabular Zero-Shot Pero Oculta Datos de Benchmark

Los modelos de visión-lenguaje enrutan el conocimiento a través de apenas el 2,5% de la red

Agentes de IA Duplican la Fricción de Merge a Nivel de Repositorio

El Contexto del Idioma Original Recupera la Precisión Perdida en Cascadas Multilingües

ENS Alcanza Precisión 10× en Benchmarks Difíciles de EDPs sin Bucles de Corrección

La Taxonomía de Mecanismo Eleva F1 de Moderación LLM en 5,4%

Pipeline de Código Abierto Logra 68% de Precisión Extrayendo Redes Políticas de Noticias

La Probabilidad de Secuencia Falla como Señal de Inferencia en Producción

RiVER Permite Aprendizaje por Refuerzo Sin Etiquetas de Verdad Absoluta

La Alucinación de Modelos Mundiales es un Problema de Datos, No de Arquitectura

Investigador Solitario Queda en 2º Lugar en el Desafío de Robot Doblador de Ropa de ICRA

Modelos Olvidan Reglas Aprendidas Durante el Entrenamiento

Señal de Puntuación Gratuita Emerge de los Padrón de Pós-Entrenamiento RL

Protocolo de Análisis Forense de DeepMind Diagnostica IA Confundida vs. Desalineada

Los Modelos Multimodales Cambian de Respuesta Cuando Cambia el Orden de las Evidencias

Las IAs de Voz en Producción Ignoran la Emoción, Aprobando Fraudes y Terminando Llamadas de Cuidado

El Modelo 397B de Qwen Simula Entornos de Agentes Mejor que GPT-5.4

Benchmark FFASR Expone la Brecha en el Reconocimiento de Voz de Campo Lejano

Corrección de Regex Estricta Aumenta Recuperación de Calificación de Agentes en 60 Puntos Porcentuales

InSight Permite que los Robots Aprendan Autónomamente Nuevas Tareas

Dataset OpenThoughts-Agent Alcanza 44.8% en Benchmarks de Agentes

Modelo Moebius Llega al Navegador vía ONNX+WebGPU en una Sesión de Agente Paralelo