§ BEAT
Pesquisa
Treinamento do AutoMem Duplica Desempenho de Agentes em Tarefas de Longo Horizonte
BrowserBC Eleva Taxa de Sucesso de Agentes de Navegador para 81% Usando Rastreamentos Humanos
Google Lança Modelo Tabular Zero-Shot, Mas Esconde Dados de Benchmark
ENS Atinge Precisão 10× em Benchmarks Difíceis de EDPs Sem Loops de Correção
Pesquisador Solitário Fica em 2º Lugar no Desafio de Robô Dobrando Roupas da ICRA
Sinal de Pontuação Gratuito Emerge dos Padrões de Pós-Treinamento RL
O Modelo 397B do Qwen Simula Ambientes de Agentes Melhor que o GPT-5.4
InSight Permite que Robôs Aprendam Autonomamente Novas Tarefas
Pipeline LLM OpenAnt Identifica 28 Vulnerabilidades Exploráveis no OpenSSL
Redes de Koopman Aumentadas por Física Garantem Generalização em Malhas Irregulares
Relatório da DeepMind Identifica Ganhos de Capacidade 'Desigual' como Risco ASI
Claude Fable 5 Corrigiu Código de Forma Autônoma e Custou US$ 110 em um Dia
Google's DiffusionGemma Atinge 1.000 Tokens por Segundo
GRPO Reduz Erros de Tratamento de Pausas em Agentes Full-Duplex Sem Perda Semântica
Camada Linear Única Supera Porta de 1M-Parâmetros no Teste de Aceleração de MTP
AHA-WAM alcança controle de robô 4.59 vezes mais rápido desacoplando Transformadores de Difusão
Pesquisadores de Waterloo reduzem custo de quantificação de incerteza em 99,7% com FASE
StreamMA Reduz Latência de Raciocínio Multi-Agente em 26,9×
Alibaba Desenvolve Skill-RM para Avaliação Unificada de Recompensas de LLM
Precisão de Manipulação de Robôs Salta 22,5% com Codificador Consciente de Movimento
Método HullFT Reduz Latência de Finetuning em Tempo de Teste em Comparação com SIFT
Busca Evolucionária Bidirecional Escapa dos Limites Autorregressivos na Razão
Modelo de Mistura de Profundidades de 30B do Mistral permanece não confirmado, mas preencheria uma lacuna na pilha de código
LoopMDM Reduz FLOPs de Treinamento 3.3× ao Reciclar Camadas Transformer
VeriTrace Melhora Agentes de Pesquisa Sem Escalar Modelos
Escala de Modelo Não Prevê Desempenho de Habilidades Extraídas
Gated DeltaNet-2 Supera Baselines Lineares em Recuperação de Contexto Longo
Vector Policy Optimization supera GRPO em amostragem diversa
Equilibrium Reasoners elevam precisão do Sudoku de 2,6% para 99% via test-time scaling