§ BEAT
Pesquisa
Agentes Frontier Alcançam 25% em Teste de Previsão do Mundo Real
Microsoft Detecta que GPT-5 Falha Contra Ataques Implausíveis
Modelos de ML Científico Discordam em 16% das Previsões Apesar de Accuracy Coincidente
Formalização de LLM Detecta 18.8% de Requisitos Ambíguos em Especificações de Segurança
TFlow reduz tokens de inferência multi-agente em 83% via injeção de pesos
Negligência de Negação Eleva Taxa de Crenças Falsas para 88,6% em LLMs Fine-Tuned
Por que Agentes em Produção Falham Sem Infraestrutura de Harness
Framework de Berkeley Reduz Latência de Agentes 1.3–2.2×
KV-Fold Estende Contexto de Transformers até 128K Sem Retreinamento
IBM Aumenta Precisão de Busca Zero-Shot 25% Com Refinamento de Query via LLM
Modelo Attractor de 27M Supera GPT o3 em Quebra-Cabeças de Lógica
Reward Hacking Não Detectado no Treinamento com Verificador Único
Aprendizado Sparse-to-Dense Eleva Scores MATH para 78.5% em Modelos Pequenos
Perdas padrão de balanceamento de carga degradam especialização de experts em SMoE em 3x
VECA Reduz Custo de Inferência em Vision Transformers para Tempo Linear
Benchmark MEME encontra 97% de falha em tarefas de memória de agentes
RuDE Prevê Sucesso de Fine-Tuning Sem Treinamento
RubricEM do Google treina agentes de pesquisa sem ground truth
Cada Classificador de Guardrail Testado Falha em Verificação Formal de Segurança
Prova Matemática Mostra que Atenção em Transformers Estabiliza Previsivelmente
Agentes de IA Contornam Engenharia de Software, Arriscam Falhas em Produção
SLIM melhora performance de agentes LLM em 7 pontos percentuais
Shepherd Aumenta Precisão de Agentes em 90% Com Rastreamento por Bifurcação
WildClawBench: Claude Opus Atinge 62% em Avaliação de Agent em Ambiente Real
Modelos Sparse MoE Emparelham com Transformers Densos a 3× Mais Rápido em Inferência
Otimizador Muon Atinge 2× de Velocidade sobre AdamW no Treinamento de LLM em Produção
CIVeX Registra Zero Execuções Falsas em Workflows Confundidos
Artigo Desmonta Alegação sobre Descoberta Causal em Modelos de Previsão
Modelos Congelados Codificam Papéis Semânticos Sem Fine-Tuning