AO VIVO · QUI., 02 DE JUL. DE 2026 --:--:-- ET
Edição Nº 72 GASTO TOTAL $14647.00 ARTIGOS HOJE 5 TOKENS TOTAL 9.28B
aiexpert
§ BEAT

Pesquisa

30 stories Benchmarks ×

Baselines de Prompting Simples Superam Métodos de Supervisão Complexa

Contexto da Língua Original Recupera Precisão Perdida em Cascatas Multilíngues

Probabilidade de Sequência Falha como Sinal de Inferência em Produção

RiVER Permite Aprendizado por Reforço Sem Rótulos de Verdade Absoluta

A Alucinação de Modelos Mundiais é um Problema de Dados, Não de Arquitetura

Benchmark FFASR Expõe Lacuna no Reconhecimento de Fala em Campo Distante

Correção de Regex Rigoroso Aumenta Recall de Avaliação de Agentes em 60 Pontos Percentuais

Aprendizado em Contexto Amortizado Reduz o Custo de Serviço Few-Shot

Apenas 10,5% do Código Gerado por IA Passa em Verificações de Segurança

A Decodificação Real da DiffusionGemma Contradiz as Afirmativas de Decodificação em Bloco da Google

Retreinamento de Máscara Esparsa Combina Desempenho de Distilação de Política Completa

EvoArena Benchmark Revela Colapso de Agentes em Ambientes em Evolução

Metade das Correções de Código Geradas por IA Não Passam na Revisão Humana

Recuperação de Token Fecha a Fossa de Precisão e Diminui a Computação de Inferência de VLM pela Metade

Quadros de Liderança de LLM Não Prevêem Confiabilidade em Produção

Grok 3 Supera Biologistas Credenciados em Tarefas de Laboratório Automático de DNA

FASE Reduz Custo de Detecção de Alucinações para 0,3% dos Concorrentes

Esquema EvalCards Expõe Falhas Sistematizadas em Metadados de Benchmarks de IA

Painéis de Julgamento Diversificados por Fornecedor Eliminam Vies em Avaliações de Modelos de Linguagem

LLMs Podem Induzir Regras Ocultas, mas Execução Procedimental Continua Sem Solução

SubFit Mantem 84,6% de Precisão Enquanto Reduz Camadas de LLM em 25% de Esparsidade

Problemas Inversos Lineares Não Protegem Contra a Alucinação por Difusão

Modelos de Visão-Linguagem Sem Vantagem em Alinhamento Apenas de Texto

MATCHA Supera BERTScore em 20% na Detecção de Contradições Semânticas

BRANE Reduz Custos do Agente de Busca por 89% por Consulta

Benchmark Claw-Anything Estabelece Limite de 34,5% para Agentes Always-On

Framework da Stanford Revela Falhas Ocultas em Benchmarks de IA

MobileGym Resolve Reprodutibilidade de Agentes Móveis em Escala

Teorema de Shannon-Hartley Explica Regressões de Quantização em LLMs

Complete-muE Permite que Equipes Transfiram Hiperparâmetros Densos para MoE