Harness Agent vs. Claude Code: por que um agente vertical vence a busca de pessoas por 19 pontos

65,2Pontuação total Lessie

45,8Total Claude Code

+19,4Distância de harness (pontos)

119Consultas reais

Em 2026, a frase mais interessante em IA não fala de um modelo novo. É uma fórmula sobre a qual Anthropic, Martin Fowler e metade da comunidade de pesquisa em IA convergiram nas últimas semanas:

Agent = Model + Harness.

Quem andou pelo AI Twitter recentemente viu a palavra harness em todo lugar. Princeton lançou o HAL harness. A HKUDS abriu o OpenHarness. Um novo paper de Meta-Harness mostrou que reescrever automaticamente o harness em torno de um modelo congelado pode subir o TerminalBench-2 em vários pontos sem encostar nos pesos. Philipp Schmid chamou o agent harness de “principal ferramenta para resolver model drift em tarefas longas”.

Mas tem uma coisa que ninguém diz em alto e bom som: quase toda a conversa sobre harness em 2026 é sobre agentes de programação. Claude Code. SWE-bench. Tarefas de terminal. Navegação de repositório.

E o resto? E o trabalho agentic que não toca em um repositório Git?

Nós somos a Lessie e construímos um Harness Agent para um trabalho específico: encontrar pessoas. Recrutadores nos usam para achar candidatos. Times de vendas usam para achar tomadores de decisão. VCs usam para achar fundadores. Marketers usam para achar criadores. Por isso, quando a conversa sobre harness explodiu, queríamos saber algo concreto: a tese “o harness importa mais que o modelo” se sustenta fora da programação?

Então construímos um benchmark e rodamos o experimento. O resultado se chama PeopleSearchBench, e a manchete é a seguinte:

Em 119 consultas reais de busca de pessoas, Lessie tirou 65,2. Claude Code, em Sonnet 4.6, tirou 45,8. Uma diferença de 42% — e a única coisa que mudou foi o harness.

Vamos destrinchar o que isso significa.

O que é um Harness Agent, em português claro

A definição mais curta vem do time do OpenHarness: o modelo é o agente; o código é o harness. Uma um pouco mais longa, da Parallel Web: um harness é o runtime que envolve o modelo, intercepta suas chamadas de ferramentas, gerencia o contexto e mantém o agente focado na tarefa.

Martin Fowler enquadra isso como duas metades trabalhando juntas.Guides: controles feed-forward que moldam o comportamento do agente antes de ele agir (system prompts, descrições de ferramentas, contexto recuperado, snapshots do ambiente). Sensors: controles de feedback que observam o que o agente fez e reinjetam correções (linters, validadores, loops de verificação). Um bom harness combina os dois. Um harness ruim só tem feed-forward e fica olhando o agente repetir o mesmo erro no turno 47.

Um Harness Agent, então, é o pacote inteiro: modelo + guides + sensors + ferramentas + memória + lógica de verificação. O que transforma a previsão crua de tokens em algo capaz de fechar um trabalho de verdade.

Dois sabores estão emergindo:

Harnesses generalistas como o Claude Agent SDK, OpenHarness e o harness dentro do Claude Code. Projetados para serem agnósticos ao domínio.
Harnesses verticais construídos em torno de um único trabalho, com guides e sensors afinados para os modos de falha desse trabalho.

Quase todos os benchmarks de harness que você ouviu falar — SWE-bench, TerminalBench-2, USACO, AppWorld — medem harnesses generalistas em tarefas de programação. Até onde sabemos, o PeopleSearchBench é o primeiro benchmark a colocar um Harness Agent vertical contra um generalista em um trabalho que não é código.

Por que a busca de pessoas precisa do seu próprio harness

Se você já pediu para um agente de IA generalista “me ache engenheiros de ML sêniores em startups Series B em Berlim que entregaram produtos LLM”, já conhece os modos de falha. Três deles são particularmente teimosos — e os três são problemas de harness, não de modelo:

1. Resolução de entidades entre fontes.Uma pessoa real existe em LinkedIn, X, GitHub, palestras em conferências, páginas corporativas e bases acadêmicas. Usa nomes diferentes, fotos diferentes, às vezes até grafias diferentes. Um harness generalista não tem nenhuma noção embutida de que“este perfil do LinkedIn e essa conta do GitHub são o mesmo humano”. Um harness de busca de pessoas tem que resolver isso a cada consulta.

2. Loops de verificação.Sem uma camada de sensors, agentes inventam pessoas com toda a confiança. Vão te citar um “Senior ML Engineer na Stripe Berlim” que não existe, porque os tokens parecem plausíveis. A solução não é um modelo mais inteligente — Sonnet 4.6 dentro do Claude Code faz exatamente o mesmo. A solução é um sensor: toda pessoa devolvida é checada contra fontes web ao vivo antes de chegar ao usuário.

3. Decomposição de consultas para atributos humanos.“Engenheiro de ML em Berlim, Series B, que entregou produtos LLM” não é uma consulta. É um checklist: papel + senioridade + estágio da empresa + localização + domínio + entrega recente. Um harness generalista joga a frase inteira numa caixa de busca. Um harness vertical decompõe em critérios, roda em paralelo nas fontes certas, e depois reagrupa e ordena.

Esses três são exatamente o que Fowler chama de guides e sensors. Só que são guides e sensors que ninguém se dá ao trabalho de embutir num harness generalista de programação, porque um harness de programação não precisa.

As provas: PeopleSearchBench

Construímos o PeopleSearchBench para testar isso com honestidade. A metodologia completa está no paper, mas em versão curta é assim:

119 consultas reais, tiradas de fluxos reais de recrutamento, vendas e pesquisa
4 idiomas (inglês, português, espanhol, holandês)
4 cenários: Recrutamento (30), Prospecção B2B (32), Especialista / Determinístico (28), Influenciador / KOL (29)
4 plataformas: Lessie (Harness Agent vertical), Exa (API de busca estruturada), Juicebox / PeopleGPT (plataforma de recrutamento com 800M+ perfis), Claude Code (harness generalista em Sonnet 4.6)
Três dimensões independentes: Relevance (padded nDCG@10), Coverage (taxa de conclusão × rendimento), Utility (completude dos dados de perfil)
Verificação por busca web ao vivo, sem chute de LLM: cada pessoa devolvida é confrontada com LinkedIn, sites corporativos e perfis públicos. O agente verificador não sabe qual plataforma produziu cada resultado.

As pontuações totais:

Lessie: Total 65,2 | Relevance 70,2 | Coverage 69,1 | Utility 56,4
Exa: Total 54,6 | Relevance 53,8 | Coverage 58,1 | Utility 53,1
Claude Code: Total 45,8 | Relevance 54,3 | Coverage 41,1 | Utility 42,7
Juicebox: Total 45,8 | Relevance 44,7 | Coverage 41,8 | Utility 50,9

Lessie é primeira em todas as dimensões. É também a única plataforma que terminou as 119 consultas — taxa de conclusão de 100%. As outras três regularmente devolviam nada nas buscas de nicho.

Mas o número que mais importa para o debate sobre harness é a distância entre Lessie e Claude Code. Os dois são agentes de IA. Os dois podem chamar ferramentas. Os dois podem buscar na web. Claude Code roda em um dos modelos mais fortes do planeta. Mesmo assim perdeu por 19,4 pontos no total, com 28 pontos só de diferença na Coverage.

Esses 19,4 pontos não são uma distância de modelo. É uma distância de harness.

A maior distância em um único cenário foi na descoberta de Influenciador / KOL: Lessie 62,3, Claude Code 43,2. A busca por influenciadores é onde harnesses generalistas mais quebram, porque a resposta certa vive ao mesmo tempo no TikTok, Instagram, YouTube e X, e um harness generalista não sabe fundir essas fontes. A menor distância foi no recrutamento, onde três plataformas passaram de 64 — o recrutamento é a vertical mais madura da busca de pessoas, e a indústria teve anos para construir ferramentas para ela.

O padrão é consistente: quanto mais um cenário exige fusão multi-fonte e verificação, mais o harness pesa.

O que tem dentro do harness do Lessie

Não vamos publicar nossos system prompts. Mas a arquitetura tem três camadas que mapeiam de forma limpa no modelo guides-sensors, e vale a pena descrever porque é mais ou menos o que qualquer Harness Agent vertical vai precisar:

Camada 1 — Orquestração multi-fonte (guides).Quando uma consulta chega, o harness a roteia em paralelo por redes profissionais, plataformas sociais, bases acadêmicas e registros públicos. Cada fonte tem sua própria estratégia de retrieval. O modelo nunca vê o fan-out cru: vê um conjunto unificado de candidatos.

Camada 2 — Decomposição de critérios e verificação (sensors).Cada consulta é quebrada em critérios explícitos — papel, senioridade, localização, estágio da empresa, sinais — e cada candidato é verificado contra esses critérios via lookup web ao vivo antes do passo de ranking. É exatamente a metodologia que o PeopleSearchBench usa para nos pontuar, e isso não é coincidência: nós construímos o harness em torno dos modos de falha que o benchmark mede.

Camada 3 — Enriquecimento de perfil.Uma vez que a pessoa passa pela verificação, o harness vai atrás de dados estruturados de perfil: cargo atual, atividade recente, vias de contato, presença social. É por isso que nossa pontuação de Utility lidera o campo: devolver a pessoa certa com os campos vazios não serve, e um harness generalista não tem motivo para fazer enrichment como passo embutido.

O modelo no meio faz aquilo em que modelos são bons: raciocinar, ranquear, resumir, julgar. O harness faz todo o resto. Tira o harness e sobra um chatbot. Tira o modelo e sobra uma pipeline de busca. Junta os dois e você tem um Harness Agent vertical.

O que isso significa para o debate sobre harness

A afirmação interessante que sai da conversa sobre harness em 2026 é que o progresso dos modelos em benchmarks estáticos está desacelerando, mas a performance agentic continua muito aberta — porque a maior parte do ganho que sobrou vive no harness. Meta-Harness mostrou isso pelo lado da programação, descobrindo automaticamente harnesses melhores. O PeopleSearchBench mostra do outro lado: harnesses verticais construídos à mão podem bater um modelo de fronteira dentro de um harness generalista por margens que nenhum upgrade de modelo vai fechar.

Se isso é verdade, duas coisas se seguem.

Primeiro: cada trabalho agentic com valor comercial vai ter o seu próprio Harness Agent.Busca de pessoas é um. Pesquisa jurídica, outro. Raciocínio clínico, análise financeira, investigação de cadeia de suprimentos, revisão de literatura científica — cada um tem modos de falha que um harness generalista nunca vai otimizar, porque está otimizando para tudo ao mesmo tempo. Harness Agents verticais vão engolir a cauda longa do trabalho agentic do mesmo jeito que o SaaS engoliu a cauda longa do software.

Segundo: os benchmarks precisam acompanhar.SWE-bench e TerminalBench-2 são ótimos, mas medem só uma fatia da qualidade do harness. Se a área leva a sério a tese do harness, precisa de benchmark de harness para cada vertical que importa. O PeopleSearchBench é nossa tentativa de começar isso para a busca de pessoas. Dataset, pipeline de avaliação e resultados completos são open source.

O modelo é o motor. O harness é o carro.Nós construímos esse carro para uma única estrada. Se o seu trabalho tem a ver com encontrar pessoas — candidatos, clientes, investidores, criadores, parceiros — experimente o carro:lessie.ai. E se quiser ver exatamente como a gente bateu um agente de programação com modelo de fronteira em algo para o qual ele nunca foi feito, o benchmark completo e o paper estão aqui.

Em 2026, o harness é o fosso. Os números falam por si.

FAQ

O que é um Harness Agent?

Um Harness Agent é um modelo envolvido em um runtime que gerencia o seu contexto, as suas chamadas de ferramentas, os seus loops de verificação e a sua memória. Martin Fowler divide isso em duas metades: guides (controles feed-forward como system prompts, descrições de ferramentas, contexto recuperado) e sensors (controles de feedback como linters, validadores, loops de verificação). O modelo sozinho é só um preditor de tokens; é o harness que o transforma em algo capaz de fechar um trabalho de verdade.

Por que em 2026 o harness importa mais que o modelo?

O progresso dos modelos de fronteira em benchmarks estáticos está desacelerando, mas a performance agentic continua muito aberta porque a maior parte do ganho que sobrou vive no harness. A pesquisa de Meta-Harness mostrou que reescrever automaticamente o harness com o modelo congelado pode subir o TerminalBench-2 em vários pontos sem tocar nos pesos. O PeopleSearchBench mostra o mesmo padrão pelo outro lado: um Harness Agent vertical bateu o Claude Code em Sonnet 4.6 em 19,4 pontos no total, e a única coisa que mudou foi o harness.

O que é o PeopleSearchBench e como ele funciona?

O PeopleSearchBench é um benchmark open source para busca de pessoas com IA. Ele avalia 119 consultas reais em 4 cenários (Recrutamento, Prospecção B2B, Especialista / Determinístico, Influenciador / KOL) e 4 idiomas, em três dimensões independentes: Relevance (padded nDCG@10), Coverage (taxa de conclusão × rendimento) e Utility (completude dos dados de perfil). Cada pessoa devolvida é verificada via busca web ao vivo contra LinkedIn, sites corporativos e perfis públicos, e o agente verificador não sabe qual plataforma produziu cada resultado. Os resultados completos estão aqui.

Como o Lessie bateu o Claude Code em busca de pessoas por 19 pontos?

Por causa de três camadas verticais de harness que o Claude Code não tem: primeiro, uma orquestração multi-fonte que dispara em paralelo para redes profissionais, plataformas sociais, bases acadêmicas e registros públicos; segundo, uma decomposição e verificação de critérios que quebra cada consulta em checks explícitos e valida cada candidato contra fontes web ao vivo antes do ranking; terceiro, um enriquecimento de perfil que puxa dados estruturados {—} cargo, atividade recente, vias de contato {—} para cada pessoa verificada. O Claude Code em Sonnet 4.6 é um harness generalista excelente, mas não tem resolução de entidades embutida, nem sensor de verificação, nem passo de enrichment. Isso são funções do harness, não do modelo.

Qual a diferença entre Harness Agent vertical e generalista?

Um Harness Agent generalista {—} Claude Code, Claude Agent SDK, OpenHarness {—} é agnóstico ao domínio e calibrado principalmente para uso amplo de ferramentas e fluxos de programação. Um Harness Agent vertical é construído em torno de um único trabalho, com guides e sensors afinados para os modos de falha desse trabalho. A busca de pessoas tem modos de falha teimosos que um harness generalista nunca vai otimizar (resolução de entidades entre fontes, perfis alucinados, decomposição multi-critério), porque o harness generalista está otimizando para tudo ao mesmo tempo. Harness Agents verticais vão engolir a cauda longa do trabalho agentic do mesmo jeito que o SaaS engoliu a cauda longa do software.