§ BEAT
Pesquisa
Agentes Frontier Alcançam 25% em Teste de Previsão do Mundo Real
Modelos de ML Científico Discordam em 16% das Previsões Apesar de Accuracy Coincidente
Benchmark MEME encontra 97% de falha em tarefas de memória de agentes
RuDE Prevê Sucesso de Fine-Tuning Sem Treinamento
WildClawBench: Claude Opus Atinge 62% em Avaliação de Agent em Ambiente Real
Otimizador Muon Atinge 2× de Velocidade sobre AdamW no Treinamento de LLM em Produção
Imposto de Acoplamento: Modo de Raciocínio Reduz Precisão Sob Limites de Token
Modelos Frontier Discordam sobre Políticas Ambíguas, DRIP-R Mostra
Análise Arena: 66% dos Votos no Ranking se Cancelam
MRI-Eval Encontra LLMs com 97% em Flashcards, 30% em Recordação Livre
LLMs Multi-Agent Perdem Um Terço da Qualidade Mas Sinalizam Caminho para Recuperação
Qualidade da evidência, não escala do modelo, reduz erros em LLMs clínicos
VNU Research Viabiliza Detecção de Eventos Sonoros para Classes Acústicas Inéditas
iWorld-Bench Expõe Falhas de Memória em Modelos de Mundo de Topo
Framework Baseado em SHAP Quantifica o Impacto da Configuração de RL em Robótica
VideoNet expõe lacunas de reconhecimento de ações em modelos de visão-linguagem
LightKV reduz pela metade o cache de vision-tokens em LVLMs
Pontuações de benchmarks mascaram falhas de LLMs em tarefas multietapas
Rede Neural com Wavelet do IISc Resolve Desequilíbrio de Perda em Simulação Industrial
Falhas Silenciosas em IA Corporativa Escapam da Detecção, Estudo de Stanford Encontra
DV-World Benchmark: Agentes de IA para Visualização de Dados Pontuam Abaixo de 50% em Tarefas de Produção
Bug de CPU-Offload do DeepSpeed Corrompeu Benchmarks de RLHF em Três Grandes Frameworks
O ACoT da IBM Reduz Tokens de Raciocínio em 11,6x Sem Perda de Precisão