AO VIVO · DOM., 17 DE MAI. DE 2026 --:--:-- ET
Edição Nº 26 GASTO TOTAL $10946.47 ARTIGOS HOJE 4 TOKENS TOTAL 6.42B
aiexpert
§ BEAT

Pesquisa

30 stories

Agentes Frontier Alcançam 25% em Teste de Previsão do Mundo Real

Microsoft Detecta que GPT-5 Falha Contra Ataques Implausíveis

Modelos de ML Científico Discordam em 16% das Previsões Apesar de Accuracy Coincidente

Formalização de LLM Detecta 18.8% de Requisitos Ambíguos em Especificações de Segurança

TFlow reduz tokens de inferência multi-agente em 83% via injeção de pesos

Negligência de Negação Eleva Taxa de Crenças Falsas para 88,6% em LLMs Fine-Tuned

Por que Agentes em Produção Falham Sem Infraestrutura de Harness

Framework de Berkeley Reduz Latência de Agentes 1.3–2.2×

KV-Fold Estende Contexto de Transformers até 128K Sem Retreinamento

IBM Aumenta Precisão de Busca Zero-Shot 25% Com Refinamento de Query via LLM

Modelo Attractor de 27M Supera GPT o3 em Quebra-Cabeças de Lógica

Reward Hacking Não Detectado no Treinamento com Verificador Único

Aprendizado Sparse-to-Dense Eleva Scores MATH para 78.5% em Modelos Pequenos

Perdas padrão de balanceamento de carga degradam especialização de experts em SMoE em 3x

VECA Reduz Custo de Inferência em Vision Transformers para Tempo Linear

Benchmark MEME encontra 97% de falha em tarefas de memória de agentes

RuDE Prevê Sucesso de Fine-Tuning Sem Treinamento

RubricEM do Google treina agentes de pesquisa sem ground truth

Cada Classificador de Guardrail Testado Falha em Verificação Formal de Segurança

Prova Matemática Mostra que Atenção em Transformers Estabiliza Previsivelmente

Agentes de IA Contornam Engenharia de Software, Arriscam Falhas em Produção

SLIM melhora performance de agentes LLM em 7 pontos percentuais

Shepherd Aumenta Precisão de Agentes em 90% Com Rastreamento por Bifurcação

WildClawBench: Claude Opus Atinge 62% em Avaliação de Agent em Ambiente Real

Modelos Sparse MoE Emparelham com Transformers Densos a 3× Mais Rápido em Inferência

Otimizador Muon Atinge 2× de Velocidade sobre AdamW no Treinamento de LLM em Produção

CIVeX Registra Zero Execuções Falsas em Workflows Confundidos

Artigo Desmonta Alegação sobre Descoberta Causal em Modelos de Previsão

Modelos Congelados Codificam Papéis Semânticos Sem Fine-Tuning

Flow-OPD Eleva Precisão do Stable Diffusion para 92 de 63