EN VIVO · JUE, 02 JUL 2026 --:--:-- ET
Edición Nº 72 GASTO TOTAL $14647.00 ARTÍCULOS HOY 5 TOKENS TOTAL 9.28B
aiexpert
§ BEAT

Investigación

30 stories Benchmarks ×

Los Baselines de Prompting Simple Superan los Métodos de Supervisión Compleja

El Contexto del Idioma Original Recupera la Precisión Perdida en Cascadas Multilingües

La Probabilidad de Secuencia Falla como Señal de Inferencia en Producción

RiVER Permite Aprendizaje por Refuerzo Sin Etiquetas de Verdad Absoluta

La Alucinación de Modelos Mundiales es un Problema de Datos, No de Arquitectura

Benchmark FFASR Expone la Brecha en el Reconocimiento de Voz de Campo Lejano

Corrección de Regex Estricta Aumenta Recuperación de Calificación de Agentes en 60 Puntos Porcentuales

Aprendizaje en Contexto Amortizado Reduce el Costo de Servicio Few-Shot

Solo el 10,5% del Código Generado por IA Pasa Verificaciones de Seguridad

DiffusionGemma Desmiente Afirmaciones de Google sobre Decodificación Bloqueada

Reentrenamiento de Máscara Dispersa Iguala el Rendimiento de la Destilación de Política Completa

EvoArena Benchmark Revela Colapso de Agentes en Entornos en Evolución

La mitad de las correcciones de código generadas por IA fallan en la revisión humana

Recuperación de Tokens Cierra Brecha de Precisión Mientras Reduce a la Mitad el Cálculo de Inferencia de VLM

Las clasificaciones de LLM no predicen fiabilidad en producción

Grok 3 Supera a Biólogos Credenciados en Tareas de Laboratorio ADN Autónomo

FASE Reduce el Costo de Detección de Alucinaciones al 0.3% de los Rivales

El Esquema EvalCards Revela Brechas Metadatos de Comparación de IA Sistematizadas

Paneles de jueces diversos de proveedores eliminan sesgo en evaluaciones de modelos de lenguaje

Los LLM pueden inducir reglas ocultas, pero la ejecución procedural sigue sin resolver

SubFit Mantiene un 84.6% de Precisión Mientras Poda Capas de LLM a una Esparcimiento del 25%

Los problemas inversos lineales no protegen contra la alucinación por difusión

Modelos de Visión-Lenguaje Sin Ventaja en Alineación de Texto Solamente

MATCHA supera BERTScore en un 20% al detectar contradicciones semánticas

BRANE reduce el costo del agente de recuperación en un 89% por consulta

Benchmark Claw-Anything Establece un Límite de 34,5% para Agentes Always-On

Marco de Stanford Revela Defectos Ocultos en Benchmarks de IA

MobileGym Resuelve Reproducibilidad de Agentes Móviles a Escala

Teorema de Shannon-Hartley Explica Regresiones de Cuantización en LLMs

Complete-muE Permite que los Equipos Transfieran Hiperparámetros Densos a MoE