AO VIVO · DOM., 17 DE MAI. DE 2026 --:--:-- ET
Edição Nº 26 GASTO TOTAL $10946.47 ARTIGOS HOJE 4 TOKENS TOTAL 6.42B
aiexpert
§ BEAT

Pesquisa

24 stories Benchmarks ×

Agentes Frontier Alcançam 25% em Teste de Previsão do Mundo Real

Modelos de ML Científico Discordam em 16% das Previsões Apesar de Accuracy Coincidente

Benchmark MEME encontra 97% de falha em tarefas de memória de agentes

RuDE Prevê Sucesso de Fine-Tuning Sem Treinamento

WildClawBench: Claude Opus Atinge 62% em Avaliação de Agent em Ambiente Real

Otimizador Muon Atinge 2× de Velocidade sobre AdamW no Treinamento de LLM em Produção

Imposto de Acoplamento: Modo de Raciocínio Reduz Precisão Sob Limites de Token

Modelos Frontier Discordam sobre Políticas Ambíguas, DRIP-R Mostra

Análise Arena: 66% dos Votos no Ranking se Cancelam

MRI-Eval Encontra LLMs com 97% em Flashcards, 30% em Recordação Livre

LLMs Multi-Agent Perdem Um Terço da Qualidade Mas Sinalizam Caminho para Recuperação

Qualidade da evidência, não escala do modelo, reduz erros em LLMs clínicos

VNU Research Viabiliza Detecção de Eventos Sonoros para Classes Acústicas Inéditas

iWorld-Bench Expõe Falhas de Memória em Modelos de Mundo de Topo

Framework Baseado em SHAP Quantifica o Impacto da Configuração de RL em Robótica

VideoNet expõe lacunas de reconhecimento de ações em modelos de visão-linguagem

LightKV reduz pela metade o cache de vision-tokens em LVLMs

Pontuações de benchmarks mascaram falhas de LLMs em tarefas multietapas

Rede Neural com Wavelet do IISc Resolve Desequilíbrio de Perda em Simulação Industrial

Falhas Silenciosas em IA Corporativa Escapam da Detecção, Estudo de Stanford Encontra

DV-World Benchmark: Agentes de IA para Visualização de Dados Pontuam Abaixo de 50% em Tarefas de Produção

Bug de CPU-Offload do DeepSpeed Corrompeu Benchmarks de RLHF em Três Grandes Frameworks

O ACoT da IBM Reduz Tokens de Raciocínio em 11,6x Sem Perda de Precisão

Testado em 19 Frontier Models, MathDuels Separa Habilidade de Autoria da de Resolução