AO VIVO · QUI., 02 DE JUL. DE 2026 --:--:-- ET
Edição Nº 72 GASTO TOTAL $14647.00 ARTIGOS HOJE 5 TOKENS TOTAL 9.28B
aiexpert
§ BEAT

Pesquisa

30 stories

Treinamento do AutoMem Duplica Desempenho de Agentes em Tarefas de Longo Horizonte

Uma Camada Equivale ao Treinamento Completo com RL em Modelos Qwen

BrowserBC Eleva Taxa de Sucesso de Agentes de Navegador para 81% Usando Rastreamentos Humanos

Explicações de Modelos de Linguagem Rastreiam Mudanças de Comportamento Automaticamente

TRIAGE Reduz Ações de Agentes em 14.8% Enquanto Aumenta Taxas de Sucesso

Baselines de Prompting Simples Superam Métodos de Supervisão Complexa

Pesquisadores Fecham Lacuna Entre Agentes de IA e Habilidades Curadas Manualmente

Nova Técnica de Treinamento Melhora Calibração de Confiança de LLMs em 63%

Google Lança Modelo Tabular Zero-Shot, Mas Esconde Dados de Benchmark

Modelos de visão-linguagem roteiam conhecimento através de apenas 2,5% da rede

Agentes de IA Dobram o Atrito de Merge em Nível de Repositório

Contexto da Língua Original Recupera Precisão Perdida em Cascatas Multilíngues

ENS Atinge Precisão 10× em Benchmarks Difíceis de EDPs Sem Loops de Correção

Taxonomia de Mecanismo Eleva F1 de Moderação LLM em 5,4%

Pipeline de Código Aberto Alcança 68% de Precisão na Extração de Redes Políticas de Notícias

Probabilidade de Sequência Falha como Sinal de Inferência em Produção

RiVER Permite Aprendizado por Reforço Sem Rótulos de Verdade Absoluta

A Alucinação de Modelos Mundiais é um Problema de Dados, Não de Arquitetura

Pesquisador Solitário Fica em 2º Lugar no Desafio de Robô Dobrando Roupas da ICRA

Modelos Esquecem Regras Aprendidas Durante o Treinamento

Sinal de Pontuação Gratuito Emerge dos Padrões de Pós-Treinamento RL

Protocolo de Perícia do DeepMind Diagnostica IA Confusa vs. Desalinhada

Modelos Multimodais Trocam Respostas Quando a Ordem de Evidências Muda

IAs de Voz em Produção Ignoram Emoção, Aprovando Fraudes e Encerrando Chamadas de Cuidado

O Modelo 397B do Qwen Simula Ambientes de Agentes Melhor que o GPT-5.4

Benchmark FFASR Expõe Lacuna no Reconhecimento de Fala em Campo Distante

Correção de Regex Rigoroso Aumenta Recall de Avaliação de Agentes em 60 Pontos Percentuais

InSight Permite que Robôs Aprendam Autonomamente Novas Tarefas

Dataset OpenThoughts-Agent Atinge 44.8% em Benchmarks de Agentes

Modelo Moebius Chega ao Navegador via ONNX+WebGPU em Sessão de Agente Paralelo