Grep Supera Busca Vetorial em Recuperação Inline de Agentes

Grep supera busca vetorial em dez configurações de modelo de harness quando os resultados são entregues inline, segundo um experimento fatorial de pesquisadores da PwC publicado em 14 de maio de 2026. O estudo, "Is Grep All You Need? How Agent Harnesses Reshape Agentic Search", testou quatro harnesses de agente e dois modos de recuperação em 116 questões do benchmark LongMemEval-S. Os autores Sahil Sen, Akhil Kasturi, Elias Lumer, Anmol Gulati e Vamse Kumar Subbiah são os primeiros a variar simultaneamente harness, modo de recuperação e caminho de entrega de saída de ferramenta no mesmo conjunto de dados.

O corpus: 116 questões do LongMemEval-S abrangendo seis categorias incluindo raciocínio temporal, rastreamento de atualização de conhecimento e agregação multi-sessão. Os pesquisadores emparelharam diálogo bruto com tuplas estruturadas sujeito-verbo-objeto carregando intervalos de datetime resolvidos. O harness customizado, Chronos, roda em LangChain com prompting dinâmico condicionado por categoria; inicializa cada episódio com resultados vetoriais top-15 antes de entrar em um loop de ferramenta. Harnesses nativos de provedor — Anthropic Claude Code, OpenAI Codex CLI e Google Gemini CLI — receberam wrappers bash para grep e busca vetorial. Modelos testados: Claude Opus 4.6 e Haiku 4.5, GPT-5.4, Gemini 3.1 Pro e Flash-Lite. Um juiz GPT-4o fixo pontuou todas as respostas.

Entrega inline: grep vence em todos os dez pares de harness-modelo. A margem varia de 1.7 pontos percentuais (Claude Code mais Claude Opus: 76.7% grep versus 75.0% vetorial) a 23.3 pontos (Chronos mais Gemini 3.1 Flash-Lite: 86.2% versus 62.9%). Os melhores scores inline de grep chegaram a 93.1%, alcançados tanto por Chronos mais Claude Opus 4.6 quanto por Codex CLI mais GPT-5.4. Chronos varia de 83.6–93.1% em todos os backbones com grep inline; vetor inline varia de 62.9–83.6%. O motivo: as respostas do LongMemEval são tipicamente licenciadas por spans literais — datas exatas, contagens, preferências declaradas — então correspondência regex alcança a evidência sem um gargalo de embedding.

Efeitos de harness rivalizam com efeitos de recuperação em magnitude. O mesmo modelo Claude Opus 4.6 pontuou 93.1% sob Chronos grep inline e 76.7% sob Claude Code grep inline — um gap de 16.4 pontos apesar de dados de conversa idênticos e modo de recuperação idêntico. O prompting condicionado por categoria do Chronos e superfície de ferramenta controlada direcionam agendamento de consulta e recuperação de falha, enquanto agentes CLI herdam sandboxing específico do provedor, chunking de stdout e idiomas de busca implícitos.

Entrega baseada em arquivo inverte a classificação em cinco de dez pares de harness-modelo. Codex CLI mais GPT-5.4 mostra a queda mais acentuada: de 93.1% grep inline programático para 55.2% grep; o mesmo par pontuou 67.2% com vetor programático. Roteamento programático troca largura de banda de contexto por confiabilidade de composição de ferramentas. O benefício aparece apenas quando o agente executa confiável o fluxo de trabalho ler-então-integrar. Se esse segundo estágio quebra, a acurácia cai independentemente do que o recuperador encontrou.

Um segundo experimento adicionou ruído ao corpus variando limites de sessão de 5 para o haystack completo (39–66 sessões por questão), mantendo sessões oracle constantes e amostrando distradores. Nenhuma família de recuperação degrada monotonicamente. Em cinco sessões, Chronos vetor lidera grep em vários backbones (Chronos mais GPT-5.4: 88.8% vetor versus 83.2% grep); por haystack completo a ordem frequentemente inverte. Gemini CLI com Gemini 3.1 Pro permaneceu favorável a vetor durante todo o período, ampliando para 89.7% versus 78.5% em haystack completo. Recuperação semântica ganha cobertura inicial em pequenos bundles de contexto. Precisão léxica estabiliza conforme o haystack cresce — mas este efeito é condicional ao harness, não universal. O estudo mediu apenas acurácia, não latência ou custo de API.

A pesquisa mostra que desempenho de modo de recuperação depende de harness e caminho de entrega, não de um pipeline estático. Trocar harnesses ou roteamento de saída pode deslocar acurácia de ponta a ponta mais do que trocar backends de recuperação inteiramente.

Sources

Inline grep exceeds inline vector for every harness-model pair in Experiment 1
"With inline delivery, lexical search is uniformly stronger than dense retrieval: inline grep exceeds inline vector for every harness–model pair."
arxiv.org ↗
Largest margin is Chronos + Gemini 3.1 Flash-Lite at 86.2% grep vs 62.9% vector inline
"The largest margin is Chronos with Gemini 3.1 Flash-Lite (86.2% vs. 62.9%), and the narrowest is Claude Code with Claude Opus 4.6 (76.7% vs. 75.0%)."
arxiv.org ↗
Best inline grep scores of 93.1% achieved by Chronos + Claude Opus 4.6 and Codex CLI + GPT-5.4
"Codex with GPT-5.4 ties the strongest Chronos inline grep (93.1%) while its inline vector accuracy is 75.9%."
arxiv.org ↗
Chronos inline grep spans 83.6–93.1% across backbones; inline vector spans 62.9–83.6%
"On Chronos, inline grep spans 83.6–93.1% across backbones, whereas inline vector spans 62.9–83.6%."
arxiv.org ↗
Harness shift moves Claude Opus 4.6 from 93.1% (Chronos) to 76.7% (Claude Code) with identical data and retrieval mode
"The same Claude Opus 4.6 backbone reaches 93.1% under Chronos but 76.7% under Claude Code, so changing the harness shifts the ceiling by roughly as much as swapping retrievers within a fixed harness."
arxiv.org ↗
Programmatic delivery: vector exceeds grep on 5 of 10 harness-model pairs
"Programmatic delivery reshuffles the comparison: programmatic vector exceeds programmatic grep on five of ten harness–model pairs"
arxiv.org ↗
Codex + GPT-5.4 falls from 93.1% inline grep to 55.2% programmatic grep; programmatic vector is 67.2%
"The sharpest regression is Codex with GPT-5.4, which falls from 93.1% under inline grep to 55.2% under programmatic grep, with programmatic vector at 67.2% for that same pair."
arxiv.org ↗
Study uses 116-question LongMemEval-S subset, scored by GPT-4o judge
"We evaluate on a 116-question representative subset of the LongMemEval benchmark... We instantiated GPT-4o as the metric model"
arxiv.org ↗
Chronos harness built on LangChain with category-conditioned dynamic prompting; primes each episode with top-15 vector results
"Our custom harness, Chronos, implements an agent using LangChain with access to four search tools... we use dynamic prompting: the system instructions, search hints, and tool-use guidance depend on the detected question category... followed by an initial broad context block (top-15 vector results) before the tool-calling loop begins."
arxiv.org ↗
Experiment 2: at s5, Chronos vector (87.9–94.0%) leads Chronos grep (83.2–89.7%); ordering reverses or crosses at full haystack
"At s5, Chronos grep spans 83.2–89.7% across backbones, while Chronos vector at the same configuration spans 87.9–94.0%."
arxiv.org ↗
Gemini CLI Pro stays vector-ahead at every session limit, widening to 89.7% vs 78.5% grep at full haystack
"Under Gemini CLI, by contrast, Gemini 3.1 Pro stays vector-ahead at every configuration, with the grep–vector gap widening to 89.7% vs. 78.5% at full."
arxiv.org ↗
Codex CLI vector intermediate session results are incomplete, leaving no vendor-complete noise curve for CLI harnesses
"The Codex vector row is complete only at full; intermediate configurations are pending."
arxiv.org ↗
Models evaluated: Claude Opus 4.6, Claude Haiku 4.5, GPT-5.4, Gemini 3.1 Pro, Gemini 3.1 Flash-Lite
"We evaluate five LLMs and a range of capability levels: Claude Opus 4.6 and Claude Haiku 4.5, GPT-5.4, and Gemini 3.1 Pro and Gemini 3.1 Flash-Lite."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Grep Supera Busca Vetorial em Recuperação Inline de Agentes

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.