§ BEAT
Pesquisa
Uma Camada Equivale ao Treinamento Completo com RL em Modelos Qwen
TRIAGE Reduz Ações de Agentes em 14.8% Enquanto Aumenta Taxas de Sucesso
Nova Técnica de Treinamento Melhora Calibração de Confiança de LLMs em 63%
Taxonomia de Mecanismo Eleva F1 de Moderação LLM em 5,4%
Protocolo de Perícia do DeepMind Diagnostica IA Confusa vs. Desalinhada
IAs de Voz em Produção Ignoram Emoção, Aprovando Fraudes e Encerrando Chamadas de Cuidado
ClinHallu Desmembra Por Que LLMs Médicos Erram Imagens 65% do Tempo
Agente Sub-$11 Supera Quadros de Pesquisa Especializados
Agente Recursivo com Aplicação Obtém 89% de Precisão em Tarefas de Código de Longo Contexto
DIRECT reduz a latência da IA encarnada em 65% com roteamento dinâmico do planejador
Ramificação em Nível de Token Oferece Treinamento Mais Rápido para Agente de LLM Sem Expansão de Orçamento
ABC-Bench Mostra que Agentes de LLM Agora Superam Biólogos Especiais em Tarefas de Laboratório
FPCG dirige modelos de raciocínio em tempo de teste sem retreinamento
Sondas Lineares Atingem 64-91% de Precisão para Modelos de Raciocínio Direcionados
Novo Método DRPO Corrige Colapso de Vocabulário de Longo-Cabeça em RL de LLM
Router Correspondência de 50 Novas Tentativas com 10 Amostras Corta Computação de Teste de LLM
SafeSteer reduz o imposto de alinhamento ao visar tokens de segurança esparsos
Claude Code Gastou 58% das Sessões Otimizando uma Arquitetura Quebrada
Treinamento RLHF Amplifica o Vies do Modelo para 100 Por cento
MemAudit Reduz Ataques de Envenenamento de Memória a 0%
Rensselaer e IBM Expõem Vazamento de KV Cache em LLMs Multi-Agentes
Princípio de Correspondência Unifica Sete Famílias de Robustez
Agentes Auto-Modificáveis Aumentam Pontuação de Benchmark para 0.61
LCGuard Corrige Vazamento de KV-Cache em Sistemas Multi-Agent
Fine-tuning apaga cadeias de raciocínio enquanto precisão se mantém alta
Modelos de IA Médica Subestimam Autonomia do Paciente
Microsoft Detecta que GPT-5 Falha Contra Ataques Implausíveis
Formalização de LLM Detecta 18.8% de Requisitos Ambíguos em Especificações de Segurança
Negligência de Negação Eleva Taxa de Crenças Falsas para 88,6% em LLMs Fine-Tuned