Noticias
IA, al ritmo de la redacción.
Tres grandes benchmarks inflan las puntuaciones de agentes de código, descubre auditoría
RESEARCH
El Entrenamiento de AutoMem Duplica el Desempeño del Agente en Tareas de Largo Horizonte
RESEARCH
BrowserBC Eleva la Tasa de Éxito de Agentes de Navegador al 81% Utilizando Trazas Humanas
RESEARCH
Las Explicaciones de Modelos de Lenguaje Rastrean Cambios de Comportamiento Automáticamente
RESEARCH
Los Baselines de Prompting Simple Superan los Métodos de Supervisión Compleja
RESEARCH
OpenAI lanza GeneBench-Pro; prueba el juicio de IA en 129 problemas genómicos multietapa; GPT-5.6 Sol alcanza 31,5%
RESEARCH
Google Lanza Modelo Tabular Zero-Shot Pero Oculta Datos de Benchmark
RESEARCH
Los modelos de visión-lenguaje enrutan el conocimiento a través de apenas el 2,5% de la red
RESEARCH
Agentes de IA Duplican la Fricción de Merge a Nivel de Repositorio
RESEARCH
El Contexto del Idioma Original Recupera la Precisión Perdida en Cascadas Multilingües
RESEARCH
Una Capa Coincide con el Entrenamiento Completo de RL en Modelos Qwen
RESEARCH
ChatGPT cruza 1 mil millones de usuarios mensuales activos, el hito de aplicativo de consumidor más rápido en la historia
RESEARCH
TRIAGE Reduce Acciones de Agentes 14.8% Mientras Aumenta Tasas de Éxito
RESEARCH
Investigadores Cierran la Brecha entre Agentes de IA y Habilidades Curadas Manualmente
RESEARCH
Nueva Técnica de Entrenamiento Mejora la Calibración de Confianza de LLM en 63%
RESEARCH
Neurona artificial en chip de silício descubierta; imita eficiencia del cerebro, podría reducir drasticamente el uso de energía de IA
RESEARCH
DeepSeek V4 DSpark decodificación especulativa reduce latencia de inferencia 85%, llega a Together AI
RESEARCH
OpenAI lanza familia GPT-5.6 Sol con acceso controlado por el gobierno; lidera TerminalBench en 91,9%
RESEARCH
GLM-5.2 de la startup china Z.ai supera a GPT-5.5 en codificación a 1/6 del costo