Theoria conecta prova formal e juízes LLM com verificação auditável

Uma nova arquitetura de verificação reescreve soluções candidatas de LLM em transições de estado tipadas, cada uma justificada por provas formais ou etapas de raciocínio explícitas. Isto fecha a lacuna entre juízes escalares opacos e assistentes de prova formal frágeis—crítico para equipes implantando agentes em contextos sensíveis à segurança (codificação, planejamento, finanças).

Um artigo publicado em 1º de julho no arXiv apresenta Theoria, uma arquitetura de verificação que fica entre assistentes de prova formal frágeis e juízes LLM opacos. Em vez de exigir Lean ou Coq, Theoria reescreve soluções candidatas em transições de estado tipadas, cada uma exigindo justificativa explícita — uma citação, computação ou fato dado pelo problema — antes que a transição seja licenciada. No HLE-Verified Gold (185 problemas apenas de texto de especialistas), Theoria certifica 105 soluções com precisão estrita de 91,4% (IC 95% Wilson [84,5%, 95,4%]). No GPQA Diamond (n=65), a precisão certificada atinge 97,1% (IC Wilson [85,1%, 99,5%]).

O design principal é o que os autores chamam de invariante de "completude da mudança": toda diferença entre estados de prova consecutivos deve ser contabilizada. Premissas ocultas—a classe de erro mais associada a saídas de LLM que soam confiantes mas estão erradas—aparecem como mutações não licenciadas em vez de passar silenciosamente. Esta é a garantia estrutural que juízes escalares não podem fazer. Uma pontuação de 0,87 não diz nada sobre qual etapa falhou ou por quê.

Em 95 provas envenenadas adversarialmente em 15 domínios, Theoria captura 94,7% dos erros injetados versus 83,2% para julgamento holístico de LLM (p=0,0017), uma lacuna de 11,5 pontos percentuais. A lacuna não é distribuída uniformemente. Para premissas ocultas, Theoria detecta 90,6% versus 62,5% para julgamento holístico — uma delta de 28 pp onde análise formal prediz uma vantagem. Para citações fabricadas, Theoria atinge 100% versus 90%. Para erros aritméticos e aplicação incorreta de teoremas, ambas as abordagens funcionam identicamente. As vitórias da arquitetura rastreiam as classes de erro onde rastreabilidade em nível de estado tem uma vantagem estrutural.

Para estratégias de conjunto, a complementaridade importa. Juízes LLM holísticos alcançam precisão comparável em cobertura equiparada. A sobreposição de Jaccard entre o que Theoria certifica e o que juízes holísticos aprovam é 0,14–0,36 — genuinamente esparsa, não ruído correlacionado. Executar ambos em um pipeline em etapas—Theoria para certificação rigorosa de saídas de alto risco, juízes holísticos para filtragem inicial rápida—não é redundante. Os dois métodos falham em diferentes problemas por design.

Theoria não elimina a compensação de cobertura. De 185 problemas do HLE-Verified Gold, 105 foram certificados; 80 não foram. Assistentes de prova formal cobrem ainda menos da distribuição real de problemas. Uma estimativa recente coloca os melhores LLMs provadores em 13% do PutnamBench resolvido formalmente, versus aproximadamente 83% para LLMs de raciocínio informal. A zona de Theoria é raciocínio informal tornando-se auditável, não prova formal de teoremas disfarçada.

Cada certificação Theoria produz um rastreamento de prova legível por humanos no qual cada etapa pode ser desafiada independentemente após o fato. Esta é a propriedade de trilha de auditoria que equipes orientadas por conformidade não tinham. Uma pontuação de juiz escalar não é um registro. Um rastreamento de transição de estado tipado com justificativas explícitas em cada etapa é. Se esse rastreamento satisfaz revisões regulatórias ou de segurança específicas é uma questão de implantação, mas o artefato agora existe para respondê-la.

Para equipes de plataforma ML enviando pipelines de agentes em contextos de codificação, planejamento ou finanças, a questão prática é onde na pilha inserir o verificador de Theoria. Não é uma proteção em tempo de execução—reescrever soluções em transições de estado tipadas não é uma operação de custo zero. É melhor posicionada como um portão pós-geração para saídas que disparam decisões de alto risco, ou como uma camada de auditoria em modo batch para registros de produção. Equipes já executando avaliações de LLM-como-juiz devem tratar Theoria como uma camada aditiva, não uma substituição, dada a sobreposição de Jaccard de 0,14–0,36.

O código e detalhes de benchmark ainda não estão vinculados publicamente no resumo do arXiv. Fique atento a um lançamento de repositório de Ben Slivinski e Michael Saldivar.

Sources

Theoria certifies 105 of 185 HLE-Verified Gold problems at 91.4% strict precision (Wilson 95% CI [84.5%, 95.4%])
"On HLE-Verified Gold (185 text-only expert problems), Theoria certifies 105 at 91.4% strict precision (Wilson 95% CI [84.5%, 95.4%])"
arxiv.org ↗
On GPQA Diamond (n=65), certified precision is 97.1% (Wilson CI [85.1%, 99.5%])
"On GPQA Diamond (n= 65), certified precision is 97.1% (Wilson CI [85.1%, 99.5%])"
arxiv.org ↗
Theoria catches 94.7% of adversarial poisoned proofs versus 83.2% for holistic judging (p=0.0017), an 11.5 pp gap; hidden premises: 90.6% vs. 62.5% (28 pp); fabricated citations: 100% vs. 90%
"On 95 adversarial poisoned proofs across 15 domains, structured judges catch 94.7% versus 83.2% for holistic judging (p= 0.0017). The overall 11.5 pp gap concentrates in hidden premises (90.6% vs. 62.5%, a 28 pp difference) and fabricated citations (100% vs. 90%)"
arxiv.org ↗
Jaccard overlap between Theoria certifications and holistic LLM judge passes is 0.14–0.36, making the approaches complementary
"Holistic LLM judges achieve comparable precision at matched coverage but fail on different problems (Jaccard 0.14-0.36), making the approaches complementary"
arxiv.org ↗
Theoria's core invariant is completeness of change: every difference between consecutive proof states must be accounted for, surfacing hidden premises as unlicensed mutations
"The foundational invariant is completeness of change: every difference between consecutive proof states must be accounted for, so hidden premises surface as unlicensed mutations rather than passing silently"
arxiv.org ↗
Best prover LLMs solve roughly 13% of PutnamBench formally, while informal reasoning LLMs solve roughly 83%
"reasoning LLMs can solve approximately 83% of PutnamBench problems informally, while the best publicly available prover LLMs achieve only 13% with formal proofs"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Theoria conecta prova formal e juízes LLM com verificação auditável

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.