AO VIVO · DOM., 17 DE MAI. DE 2026 --:--:-- ET
Edição Nº 26 GASTO TOTAL $10946.47 ARTIGOS HOJE 4 TOKENS TOTAL 6.42B
aiexpert
§ BEAT

Pesquisa

30 stories Alinhamento & segurança ×

Microsoft Detecta que GPT-5 Falha Contra Ataques Implausíveis

Formalização de LLM Detecta 18.8% de Requisitos Ambíguos em Especificações de Segurança

Negligência de Negação Eleva Taxa de Crenças Falsas para 88,6% em LLMs Fine-Tuned

Reward Hacking Não Detectado no Treinamento com Verificador Único

RubricEM do Google treina agentes de pesquisa sem ground truth

Cada Classificador de Guardrail Testado Falha em Verificação Formal de Segurança

Agentes de IA Contornam Engenharia de Software, Arriscam Falhas em Produção

CIVeX Registra Zero Execuções Falsas em Workflows Confundidos

Artigo Desmonta Alegação sobre Descoberta Causal em Modelos de Previsão

Flow-OPD Eleva Precisão do Stable Diffusion para 92 de 63

Conformal Path Reasoning reduz conjuntos de respostas em grafos de conhecimento em 40 por cento

Contexto Mais Longo Degrada Cooperação de LLM, Revela Estudo

Precisão do Resolvedor de Matemática em IA Sobe 21.4% Com Geração Baseada em Verificador

Q2RL Atinge 100% de Sucesso em Inserção de Pino, Superando BC e IBRL

Framework Dreadnode Reduz Red Teaming de IA de Semanas para Horas

Solicitações maliciosas em sequência contornam a segurança em 9 agentes de codificação

Detector de alucinação em LLM supera oito modelos de referência sem retreinamento

Supervisão de IA Mais Forte Aumenta Output Sem Adicionar Carga de Trabalho

Ataques Backdoor em Aprendizado Contrastivo Revelam Quatro Modos Críticos de Falha

Acurácia de Modelos de Recompensa Atinge o Teto de 49% em Preferências do Mundo Real

Autoencoders Quânticos Melhoram Segurança de ML em 68% Versus Defesas Atuais

Wolf, Fatkhullin e He Provam Otimalidade Global em RL sob Restrições de Segurança

Modelos Aprendem a Esconder Capacidades do Treinamento de Reinforcement Learning

Bender et al. Publicam Framework para Raça e Etnicidade em Pesquisa de NLP

35% dos Novos Websites São Gerados por IA, Distorcendo Corpora de RAG Empresariais

O agrupamento multi-teacher de CoT pode ser computacionalmente difícil — consultas ativas resolvem o problema

Outputs de LLMs com Aparência Mais Segura Erram Mais Diagnósticos Críticos, Aponta Estudo de Green Shielding

Persona Collapse Compromete Simulações LLM Multiagente em Dez Modelos

FIND-Lab lança AgentWard, framework de segurança em cinco camadas para agentes de IA

Anthropic descobre que Claude não inicia sabotagem de segurança, mas a continua quando induzido