§ BEAT
Pesquisa
Treinamento do AutoMem Duplica Desempenho de Agentes em Tarefas de Longo Horizonte
Uma Camada Equivale ao Treinamento Completo com RL em Modelos Qwen
BrowserBC Eleva Taxa de Sucesso de Agentes de Navegador para 81% Usando Rastreamentos Humanos
Explicações de Modelos de Linguagem Rastreiam Mudanças de Comportamento Automaticamente
TRIAGE Reduz Ações de Agentes em 14.8% Enquanto Aumenta Taxas de Sucesso
Baselines de Prompting Simples Superam Métodos de Supervisão Complexa
Pesquisadores Fecham Lacuna Entre Agentes de IA e Habilidades Curadas Manualmente
Nova Técnica de Treinamento Melhora Calibração de Confiança de LLMs em 63%
Google Lança Modelo Tabular Zero-Shot, Mas Esconde Dados de Benchmark
Modelos de visão-linguagem roteiam conhecimento através de apenas 2,5% da rede
Agentes de IA Dobram o Atrito de Merge em Nível de Repositório
Contexto da Língua Original Recupera Precisão Perdida em Cascatas Multilíngues
ENS Atinge Precisão 10× em Benchmarks Difíceis de EDPs Sem Loops de Correção
Taxonomia de Mecanismo Eleva F1 de Moderação LLM em 5,4%
Pipeline de Código Aberto Alcança 68% de Precisão na Extração de Redes Políticas de Notícias
Probabilidade de Sequência Falha como Sinal de Inferência em Produção
RiVER Permite Aprendizado por Reforço Sem Rótulos de Verdade Absoluta
A Alucinação de Modelos Mundiais é um Problema de Dados, Não de Arquitetura
Pesquisador Solitário Fica em 2º Lugar no Desafio de Robô Dobrando Roupas da ICRA
Modelos Esquecem Regras Aprendidas Durante o Treinamento
Sinal de Pontuação Gratuito Emerge dos Padrões de Pós-Treinamento RL
Protocolo de Perícia do DeepMind Diagnostica IA Confusa vs. Desalinhada
Modelos Multimodais Trocam Respostas Quando a Ordem de Evidências Muda
IAs de Voz em Produção Ignoram Emoção, Aprovando Fraudes e Encerrando Chamadas de Cuidado
O Modelo 397B do Qwen Simula Ambientes de Agentes Melhor que o GPT-5.4
Benchmark FFASR Expõe Lacuna no Reconhecimento de Fala em Campo Distante
Correção de Regex Rigoroso Aumenta Recall de Avaliação de Agentes em 60 Pontos Percentuais
InSight Permite que Robôs Aprendam Autonomamente Novas Tarefas
Dataset OpenThoughts-Agent Atinge 44.8% em Benchmarks de Agentes