Notícias
A IA, em ritmo de redação.
Três grandes benchmarks inflacionam escores de agentes de código, auditoria descobre
RESEARCH
Treinamento do AutoMem Duplica Desempenho de Agentes em Tarefas de Longo Horizonte
RESEARCH
BrowserBC Eleva Taxa de Sucesso de Agentes de Navegador para 81% Usando Rastreamentos Humanos
RESEARCH
Explicações de Modelos de Linguagem Rastreiam Mudanças de Comportamento Automaticamente
RESEARCH
Baselines de Prompting Simples Superam Métodos de Supervisão Complexa
RESEARCH
OpenAI lanza GeneBench-Pro; avalia juízo de IA em 129 problemas genômicos multiestágio; GPT-5.6 Sol atinge 31,5%
RESEARCH
Google Lança Modelo Tabular Zero-Shot, Mas Esconde Dados de Benchmark
RESEARCH
Modelos de visão-linguagem roteiam conhecimento através de apenas 2,5% da rede
RESEARCH
Agentes de IA Dobram o Atrito de Merge em Nível de Repositório
RESEARCH
Contexto da Língua Original Recupera Precisão Perdida em Cascatas Multilíngues
RESEARCH
Uma Camada Equivale ao Treinamento Completo com RL em Modelos Qwen
RESEARCH
ChatGPT ultrapassa 1 bilhão de usuários mensais ativos, marco mais rápido de aplicativo de consumidor na história
RESEARCH
TRIAGE Reduz Ações de Agentes em 14.8% Enquanto Aumenta Taxas de Sucesso
RESEARCH
Pesquisadores Fecham Lacuna Entre Agentes de IA e Habilidades Curadas Manualmente
RESEARCH
Nova Técnica de Treinamento Melhora Calibração de Confiança de LLMs em 63%
RESEARCH
Neurônio artificial em chip de silício descoberto; imita eficiência do cérebro, pode reduzir drasticamente consumo de energia de IA
RESEARCH
DeepSeek V4 DSpark decodifica de especulação reduz latência de inferência 85%, atinge Together AI
RESEARCH
OpenAI lança família GPT-5.6 Sol com acesso controlado pelo governo; lidera TerminalBench em 91,9%
RESEARCH
GLM-5.2 da startup chinesa Z.ai bate GPT-5.5 em codificação a 1/6 do custo