§ BEAT
Pesquisa
Três grandes benchmarks inflacionam escores de agentes de código, auditoria descobre
Baselines de Prompting Simples Superam Métodos de Supervisão Complexa
Contexto da Língua Original Recupera Precisão Perdida em Cascatas Multilíngues
Probabilidade de Sequência Falha como Sinal de Inferência em Produção
RiVER Permite Aprendizado por Reforço Sem Rótulos de Verdade Absoluta
A Alucinação de Modelos Mundiais é um Problema de Dados, Não de Arquitetura
Benchmark FFASR Expõe Lacuna no Reconhecimento de Fala em Campo Distante
Correção de Regex Rigoroso Aumenta Recall de Avaliação de Agentes em 60 Pontos Percentuais
Aprendizado em Contexto Amortizado Reduz o Custo de Serviço Few-Shot
Apenas 10,5% do Código Gerado por IA Passa em Verificações de Segurança
A Decodificação Real da DiffusionGemma Contradiz as Afirmativas de Decodificação em Bloco da Google
Retreinamento de Máscara Esparsa Combina Desempenho de Distilação de Política Completa
EvoArena Benchmark Revela Colapso de Agentes em Ambientes em Evolução
Metade das Correções de Código Geradas por IA Não Passam na Revisão Humana
Recuperação de Token Fecha a Fossa de Precisão e Diminui a Computação de Inferência de VLM pela Metade
Quadros de Liderança de LLM Não Prevêem Confiabilidade em Produção
Grok 3 Supera Biologistas Credenciados em Tarefas de Laboratório Automático de DNA
FASE Reduz Custo de Detecção de Alucinações para 0,3% dos Concorrentes
Esquema EvalCards Expõe Falhas Sistematizadas em Metadados de Benchmarks de IA
Painéis de Julgamento Diversificados por Fornecedor Eliminam Vies em Avaliações de Modelos de Linguagem
LLMs Podem Induzir Regras Ocultas, mas Execução Procedimental Continua Sem Solução
SubFit Mantem 84,6% de Precisão Enquanto Reduz Camadas de LLM em 25% de Esparsidade
Problemas Inversos Lineares Não Protegem Contra a Alucinação por Difusão
Modelos de Visão-Linguagem Sem Vantagem em Alinhamento Apenas de Texto
MATCHA Supera BERTScore em 20% na Detecção de Contradições Semânticas
BRANE Reduz Custos do Agente de Busca por 89% por Consulta
Benchmark Claw-Anything Estabelece Limite de 34,5% para Agentes Always-On
Framework da Stanford Revela Falhas Ocultas em Benchmarks de IA
MobileGym Resolve Reprodutibilidade de Agentes Móveis em Escala