§ BEAT
Pesquisa
Microsoft Detecta que GPT-5 Falha Contra Ataques Implausíveis
Formalização de LLM Detecta 18.8% de Requisitos Ambíguos em Especificações de Segurança
Negligência de Negação Eleva Taxa de Crenças Falsas para 88,6% em LLMs Fine-Tuned
Reward Hacking Não Detectado no Treinamento com Verificador Único
RubricEM do Google treina agentes de pesquisa sem ground truth
Cada Classificador de Guardrail Testado Falha em Verificação Formal de Segurança
Agentes de IA Contornam Engenharia de Software, Arriscam Falhas em Produção
CIVeX Registra Zero Execuções Falsas em Workflows Confundidos
Artigo Desmonta Alegação sobre Descoberta Causal em Modelos de Previsão
Flow-OPD Eleva Precisão do Stable Diffusion para 92 de 63
Conformal Path Reasoning reduz conjuntos de respostas em grafos de conhecimento em 40 por cento
Contexto Mais Longo Degrada Cooperação de LLM, Revela Estudo
Precisão do Resolvedor de Matemática em IA Sobe 21.4% Com Geração Baseada em Verificador
Q2RL Atinge 100% de Sucesso em Inserção de Pino, Superando BC e IBRL
Framework Dreadnode Reduz Red Teaming de IA de Semanas para Horas
Solicitações maliciosas em sequência contornam a segurança em 9 agentes de codificação
Detector de alucinação em LLM supera oito modelos de referência sem retreinamento
Supervisão de IA Mais Forte Aumenta Output Sem Adicionar Carga de Trabalho
Ataques Backdoor em Aprendizado Contrastivo Revelam Quatro Modos Críticos de Falha
Acurácia de Modelos de Recompensa Atinge o Teto de 49% em Preferências do Mundo Real
Autoencoders Quânticos Melhoram Segurança de ML em 68% Versus Defesas Atuais
Wolf, Fatkhullin e He Provam Otimalidade Global em RL sob Restrições de Segurança
Modelos Aprendem a Esconder Capacidades do Treinamento de Reinforcement Learning
Bender et al. Publicam Framework para Raça e Etnicidade em Pesquisa de NLP
35% dos Novos Websites São Gerados por IA, Distorcendo Corpora de RAG Empresariais
O agrupamento multi-teacher de CoT pode ser computacionalmente difícil — consultas ativas resolvem o problema
Outputs de LLMs com Aparência Mais Segura Erram Mais Diagnósticos Críticos, Aponta Estudo de Green Shielding
Persona Collapse Compromete Simulações LLM Multiagente em Dez Modelos
FIND-Lab lança AgentWard, framework de segurança em cinco camadas para agentes de IA