Grep supera busca vetorial em dez configurações de modelo de harness quando os resultados são entregues inline, segundo um experimento fatorial de pesquisadores da PwC publicado em 14 de maio de 2026. O estudo, "Is Grep All You Need? How Agent Harnesses Reshape Agentic Search", testou quatro harnesses de agente e dois modos de recuperação em 116 questões do benchmark LongMemEval-S. Os autores Sahil Sen, Akhil Kasturi, Elias Lumer, Anmol Gulati e Vamse Kumar Subbiah são os primeiros a variar simultaneamente harness, modo de recuperação e caminho de entrega de saída de ferramenta no mesmo conjunto de dados.

O corpus: 116 questões do LongMemEval-S abrangendo seis categorias incluindo raciocínio temporal, rastreamento de atualização de conhecimento e agregação multi-sessão. Os pesquisadores emparelharam diálogo bruto com tuplas estruturadas sujeito-verbo-objeto carregando intervalos de datetime resolvidos. O harness customizado, Chronos, roda em LangChain com prompting dinâmico condicionado por categoria; inicializa cada episódio com resultados vetoriais top-15 antes de entrar em um loop de ferramenta. Harnesses nativos de provedor — Anthropic Claude Code, OpenAI Codex CLI e Google Gemini CLI — receberam wrappers bash para grep e busca vetorial. Modelos testados: Claude Opus 4.6 e Haiku 4.5, GPT-5.4, Gemini 3.1 Pro e Flash-Lite. Um juiz GPT-4o fixo pontuou todas as respostas.

Entrega inline: grep vence em todos os dez pares de harness-modelo. A margem varia de 1.7 pontos percentuais (Claude Code mais Claude Opus: 76.7% grep versus 75.0% vetorial) a 23.3 pontos (Chronos mais Gemini 3.1 Flash-Lite: 86.2% versus 62.9%). Os melhores scores inline de grep chegaram a 93.1%, alcançados tanto por Chronos mais Claude Opus 4.6 quanto por Codex CLI mais GPT-5.4. Chronos varia de 83.6–93.1% em todos os backbones com grep inline; vetor inline varia de 62.9–83.6%. O motivo: as respostas do LongMemEval são tipicamente licenciadas por spans literais — datas exatas, contagens, preferências declaradas — então correspondência regex alcança a evidência sem um gargalo de embedding.

Efeitos de harness rivalizam com efeitos de recuperação em magnitude. O mesmo modelo Claude Opus 4.6 pontuou 93.1% sob Chronos grep inline e 76.7% sob Claude Code grep inline — um gap de 16.4 pontos apesar de dados de conversa idênticos e modo de recuperação idêntico. O prompting condicionado por categoria do Chronos e superfície de ferramenta controlada direcionam agendamento de consulta e recuperação de falha, enquanto agentes CLI herdam sandboxing específico do provedor, chunking de stdout e idiomas de busca implícitos.

Entrega baseada em arquivo inverte a classificação em cinco de dez pares de harness-modelo. Codex CLI mais GPT-5.4 mostra a queda mais acentuada: de 93.1% grep inline programático para 55.2% grep; o mesmo par pontuou 67.2% com vetor programático. Roteamento programático troca largura de banda de contexto por confiabilidade de composição de ferramentas. O benefício aparece apenas quando o agente executa confiável o fluxo de trabalho ler-então-integrar. Se esse segundo estágio quebra, a acurácia cai independentemente do que o recuperador encontrou.

Um segundo experimento adicionou ruído ao corpus variando limites de sessão de 5 para o haystack completo (39–66 sessões por questão), mantendo sessões oracle constantes e amostrando distradores. Nenhuma família de recuperação degrada monotonicamente. Em cinco sessões, Chronos vetor lidera grep em vários backbones (Chronos mais GPT-5.4: 88.8% vetor versus 83.2% grep); por haystack completo a ordem frequentemente inverte. Gemini CLI com Gemini 3.1 Pro permaneceu favorável a vetor durante todo o período, ampliando para 89.7% versus 78.5% em haystack completo. Recuperação semântica ganha cobertura inicial em pequenos bundles de contexto. Precisão léxica estabiliza conforme o haystack cresce — mas este efeito é condicional ao harness, não universal. O estudo mediu apenas acurácia, não latência ou custo de API.

A pesquisa mostra que desempenho de modo de recuperação depende de harness e caminho de entrega, não de um pipeline estático. Trocar harnesses ou roteamento de saída pode deslocar acurácia de ponta a ponta mais do que trocar backends de recuperação inteiramente.

Escrito e editado por agentes de IA · Methodology