Français

Harness Agent vs. Claude Code : pourquoi un agent vertical gagne la recherche de personnes de 19 points

PeopleSearchBench : 119 requêtes réelles, toutes vérifiées indépendamment sur le web.

TL;DR

  • En 2026, l{’}équation de l{’}agent fait consensus : Agent = Model + Harness. Mais presque toute la conversation sur le harness tourne autour des agents de code.
  • Nous avons construit PeopleSearchBench pour mettre la thèse du harness à l{’}épreuve sur une tâche qui n{’}est pas du code : trouver des gens. 119 requêtes réelles, 4 langues, 4 scénarios.
  • Lessie (Harness Agent vertical) a obtenu 65,2. Claude Code sur Sonnet 4.6 a obtenu 45,8. Écart de 19,4 points {—} et la seule chose qui a changé, c{’}est le harness.
  • Conclusion : les Harness Agents verticaux vont avaler la longue traîne du travail agentique. Le modèle est le moteur, le harness est la voiture {—} nous avons construit cette voiture pour une seule route.
65,2Score global Lessie
45,8Global Claude Code
+19,4Écart de harness (points)
119Requêtes réelles

En 2026, la phrase la plus intéressante en IA ne parle pas dun nouveau modèle. Cest une formule sur laquelle Anthropic, Martin Fowler et la moitié de la communauté de recherche en IA ont convergé ces dernières semaines :

Agent = Model + Harness.

Si vous traînez sur AI Twitter en ce moment, vous avez vu le mot harness partout. Princeton a publié HAL harness. HKUDS a libéré OpenHarness en open source. Un nouveau papier Meta-Harness a montré que réécrire automatiquement le harness autour dun modèle figé peut faire grimper TerminalBench-2 de plusieurs points sans toucher aux poids. Philipp Schmid a qualifié lagent harness d« outil principal pour résoudre la dérive de modèle dans les tâches longues ».

Mais voici ce que personne ne dit à voix haute : presque toute la conversation sur le harness en 2026 porte sur des agents de code. Claude Code. SWE-bench. Tâches en terminal. Navigation de dépôt.

Et tout le reste ? Le travail agentique qui ne touche pas un dépôt Git ?

Nous sommes Lessie, et nous construisons un Harness Agent pour un seul métier : trouver des gens. Les recruteurs sen servent pour trouver des candidats. Les équipes commerciales pour trouver les décideurs. Les VCs pour trouver des fondateurs. Les marketeurs pour trouver des créateurs. Quand la conversation sur le harness a explosé, on voulait donc savoir une chose concrète : la thèse du « le harness compte plus que le modèle » tient-elle vraiment hors du code ?

Alors on a construit un benchmark et lancé lexpérience. Le résultat sappelle PeopleSearchBench, et le titre, cest ça :

Sur 119 requêtes réelles de recherche de personnes, Lessie a obtenu 65,2. Claude Code, sur Sonnet 4.6, a obtenu 45,8. Soit 42 % décart et la seule chose qui a changé, cest le harness.

Voyons ce que ça signifie.

Un Harness Agent, cest quoi en clair ?

La définition la plus courte vient de léquipe OpenHarness : le modèle est lagent ; le code est le harness. Une plus longue, signée Parallel Web : un harness, cest le runtime qui enveloppe un modèle, intercepte ses appels doutils, gère son contexte et le maintient sur sa tâche.

Martin Fowler en parle comme de deux moitiés qui travaillent ensemble.Guides : contrôles feed-forward qui forment le comportement de lagent avant quil agisse (system prompts, descriptions doutils, contexte récupéré, snapshots de lenvironnement).Sensors : contrôles de feedback qui observent ce que lagent a fait et réinjectent les corrections (linters, validateurs, boucles de vérification). Un bon harness combine les deux. Un mauvais harness nest que feed-forward et regarde lagent répéter la même erreur au tour 47.

Un Harness Agent, cest donc lensemble : modèle + guides + sensors + outils + mémoire + logique de vérification. Ce qui transforme la prédiction brute de tokens en quelque chose qui termine vraiment un boulot.

Deux saveurs émergent :

  • Harnesses généralistes comme le Claude Agent SDK, OpenHarness ou le harness intégré à Claude Code. Conçus pour être agnostiques au domaine.
  • Harnesses verticaux bâtis autour dun seul métier, avec des guides et des sensors taillés pour les modes déchec de ce métier.

Presque tous les benchmarks de harness dont vous avez entendu parler SWE-bench, TerminalBench-2, USACO, AppWorldmesurent des harnesses généralistes sur des tâches de code. À notre connaissance, PeopleSearchBench est le premier benchmark qui oppose un Harness Agent vertical à un harness généraliste sur un métier qui nest pas du code.

Pourquoi la recherche de personnes a besoin de son propre harness

Si vous avez déjà demandé à un agent IA généraliste : « trouve-moi des ingénieurs ML séniors dans des startups Series B à Berlin qui ont livré des produits LLM », vous connaissez déjà les modes déchec. Trois sont particulièrement tenaces, et tous les trois sont des problèmes de harness, pas de modèle :

1. Résolution dentités entre sources.Une vraie personne existe à travers LinkedIn, X, GitHub, conférences, pages dentreprise et bases académiques. Elle utilise des noms différents, des photos différentes, parfois même des orthographes différentes. Un harness généraliste na pas de notion intégrée que « ce profil LinkedIn et ce compte GitHub, cest le même humain ». Un harness de recherche de personnes doit régler ça à chaque requête.

2. Boucles de vérification.Sans couche de sensors, les agents inventent des personnes avec un aplomb total. Ils citeront un « Senior ML Engineer chez Stripe Berlin » qui nexiste pas, parce que les tokens semblent plausibles. La solution nest pas un modèle plus intelligent Sonnet 4.6 dans Claude Code fait pareil. La solution, cest un sensor : chaque personne renvoyée est vérifiée contre des sources web en direct avant darriver à lutilisateur.

3. Décomposition de requêtes pour des attributs humains.« Ingénieur ML à Berlin, Series B, qui a livré des produits LLM » nest pas une requête : cest une checklist rôle + séniorité + stade de la société + lieu + domaine + production récente. Un harness généraliste balance la phrase entière dans une boîte de recherche. Un harness vertical la décompose en critères, les lance en parallèle sur les bonnes sources, puis recompose et classe.

Ces trois choses sont exactement ce que Fowler appelle guides et sensors. Sauf que ce sont des guides et des sensors que personne ne sembête à câbler dans un harness généraliste de code, parce quun harness de code nen a pas besoin.

Les preuves : PeopleSearchBench

Nous avons construit PeopleSearchBench pour tester ça honnêtement. La méthodologie complète est dans le papier, mais voici la version courte :

  • 119 requêtes réelles, tirées de vrais workflows de recrutement, de vente et de recherche
  • 4 langues (anglais, portugais, espagnol, néerlandais)
  • 4 scénarios : Recrutement (30), Prospection B2B (32), Expert / Déterministe (28), Influencer / KOL (29)
  • 4 plateformes : Lessie (Harness Agent vertical), Exa (API de recherche structurée), Juicebox / PeopleGPT (plateforme de recrutement avec 800M+ profils), Claude Code (harness généraliste sur Sonnet 4.6)
  • Trois dimensions indépendantes : Relevance (padded nDCG@10), Coverage (taux de complétion × rendement), Utility (complétude des données du profil)
  • Vérification par recherche web en direct, pas au feeling dun LLM : chaque personne renvoyée est confrontée à LinkedIn, sites dentreprise et profils publics. Lagent vérificateur ne sait pas quelle plateforme a produit quel résultat.

Voici les scores globaux :

  • Lessie : Global 65,2 | Relevance 70,2 | Coverage 69,1 | Utility 56,4
  • Exa : Global 54,6 | Relevance 53,8 | Coverage 58,1 | Utility 53,1
  • Claude Code : Global 45,8 | Relevance 54,3 | Coverage 41,1 | Utility 42,7
  • Juicebox : Global 45,8 | Relevance 44,7 | Coverage 41,8 | Utility 50,9

Lessie est première sur chaque dimension. Cest aussi la seule plateforme à avoir bouclé lintégralité des 119 requêtes un taux de complétion de 100 %. Les trois autres ne renvoyaient régulièrement rien sur les recherches de niche.

Mais le chiffre qui compte le plus pour le débat sur le harness, cest lécart entre Lessie et Claude Code. Les deux sont des agents IA. Les deux peuvent appeler des outils. Les deux peuvent chercher sur le web. Claude Code tourne sur lun des modèles les plus puissants de la planète. Et il a perdu de 19,4 points au global, dont 28 points rien que sur la Coverage.

Ces 19,4 points ne sont pas un écart de modèle. Cest un écart de harness.

Le plus gros écart sur un seul scénario sest joué sur la découverte dInfluencers / KOL : Lessie 62,3, Claude Code 43,2. La recherche dinfluenceurs, cest lendroit où les harnesses généralistes se cassent le plus violemment, parce que la bonne réponse vit en même temps sur TikTok, Instagram, YouTube et X, et quun harness généraliste ne sait pas les fusionner. Lécart le plus serré était sur le recrutement, où trois plateformes passent les 64 points le recrutement est la verticale la plus mature en recherche de personnes, et lindustrie a passé des années à fabriquer des outils pour elle.

Le motif est constant : plus un scénario exige de fusion multi-source et de vérification, plus le harness compte.

Ce quil y a dans le harness de Lessie

Nous ne publierons pas nos system prompts. Mais larchitecture a trois couches qui sinscrivent proprement dans le modèle guides-sensors, et qui valent le coup dêtre décrites parce que ce sont à peu près celles dont tout Harness Agent vertical aura besoin :

Couche 1 Orchestration multi-source (guides).Quand une requête arrive, le harness la route en parallèle vers réseaux professionnels, plateformes sociales, bases académiques et registres publics. Chaque source a sa propre stratégie de récupération. Le modèle ne voit jamais le fan-out brut : il voit un ensemble unifié de candidats.

Couche 2 Décomposition de critères et vérification (sensors).Chaque requête est cassée en critères explicites rôle, séniorité, lieu, stade dentreprise, signaux et chaque candidat est vérifié contre ces critères via des recherches web en direct avant létape de classement. Cest exactement la méthodologie que PeopleSearchBench utilise pour nous noter, et ce nest pas un hasard : nous avons construit le harness autour des modes déchec que le benchmark mesure.

Couche 3 Enrichissement de profil.Une fois la personne validée, le harness va chercher des données structurées de profil : rôle actuel, activité récente, voies de contact, présence sociale. Cest pour ça que notre score Utility domine le terrain : renvoyer la bonne personne avec des champs vides ne sert à rien, et un harness généraliste na aucune raison dintégrer lenrichissement comme étape par défaut.

Le modèle au milieu fait ce que les modèles savent faire : raisonner, classer, résumer, juger. Le harness fait tout le reste. Enlevez le harness, vous avez un chatbot. Enlevez le modèle, vous avez un pipeline de recherche. Mettez les deux ensemble, vous avez un Harness Agent vertical.

Ce que ça veut dire pour le débat sur le harness

Laffirmation intéressante qui sort de la conversation sur le harness en 2026, cest que les progrès des modèles sur les benchmarks statiques ralentissent, mais que la performance agentique reste largement ouverte, parce que la majorité des gains restants vit dans le harness. Meta-Harness la montré côté code en découvrant automatiquement de meilleurs harnesses. PeopleSearchBench le montre depuis lautre bout : un harness vertical bâti à la main peut battre un modèle frontière dans un harness généraliste de plusieurs longueurs des écarts quaucune mise à jour de modèle ne va combler.

Si cest vrai, deux choses en découlent.

Dabord, chaque métier agentique de valeur commerciale aura son propre Harness Agent.La recherche de personnes en est un. La recherche juridique aussi. Raisonnement clinique, analyse financière, enquête sur les chaînes dapprovisionnement, revue de littérature scientifique chacun a des modes déchec quun harness généraliste noptimisera jamais, parce quil optimise pour tout à la fois. Les Harness Agents verticaux vont avaler la longue traîne du travail agentique comme le SaaS a avalé la longue traîne du logiciel.

Ensuite, les benchmarks doivent suivre.SWE-bench et TerminalBench-2 sont excellents, mais ils mesurent une seule tranche de la qualité du harness. Si le domaine prend la thèse du harness au sérieux, il faut un benchmark de harness pour chaque verticale qui compte. PeopleSearchBench est notre tentative de lancer ça pour la recherche de personnes. Le dataset, le pipeline dévaluation et les résultats complets sont en open source.

Le modèle est le moteur. Le harness est la voiture.Nous avons construit cette voiture pour une seule route. Si votre métier consiste à trouver des gens candidats, clients, investisseurs, créateurs, partenaires essayez la voiture :lessie.ai. Et si vous voulez voir précisément comment on a battu un agent de code à modèle frontière sur quelque chose pour quoi il na jamais été conçu, le benchmark complet et le papier sont ici.

En 2026, le harness, cest le rempart. Les chiffres le disent.

Frequently Asked Questions

Qu{’}est-ce qu{’}un Harness Agent ?

Un Harness Agent, cest un modèle enveloppé dans un runtime qui gère son contexte, ses appels doutils, ses boucles de vérification et sa mémoire. Martin Fowler le découpe en deux moitiés : guides (contrôles feed-forward comme system prompts, descriptions doutils, contexte récupéré) et sensors (contrôles feedback comme linters, validateurs, boucles de vérification). Le modèle seul nest quun prédicteur de tokens ; cest le harness qui en fait quelque chose capable de finir un vrai boulot.

Pourquoi le harness compte plus que le modèle en 2026 ?

Les gains des modèles frontières sur les benchmarks statiques ralentissent, mais la performance agentique reste très ouverte parce que la plupart des gains restants vivent dans le harness. La recherche Meta-Harness a montré qu{’}en réécrivant automatiquement le harness avec un modèle figé, on peut faire monter TerminalBench-2 de plusieurs points sans toucher aux poids. PeopleSearchBench montre la même chose depuis l{’}autre côté : un Harness Agent vertical a battu Claude Code sur Sonnet 4.6 de 19,4 points au global, et la seule chose qui a changé, c{’}est le harness.

Qu{’}est-ce que PeopleSearchBench et comment ça marche ?

PeopleSearchBench est un benchmark open source pour la recherche de personnes avec IA. Il évalue 119 requêtes réelles sur 4 scénarios (Recrutement, Prospection B2B, Expert / Déterministe, Influencer / KOL) et 4 langues, sur trois dimensions indépendantes : Relevance (padded nDCG@10), Coverage (taux de complétion × rendement) et Utility (complétude des données du profil). Chaque personne renvoyée est vérifiée par recherche web en direct contre LinkedIn, sites dentreprise et profils publics, et lagent vérificateur ne sait pas quelle plateforme a produit chaque résultat. Les résultats complets sont ici.

Comment Lessie a-t-il battu Claude Code de 19 points en recherche de personnes ?

Grâce à trois couches verticales que Claude Code n{’}a pas : d{’}abord, une orchestration multi-source qui dispatche en parallèle sur réseaux professionnels, plateformes sociales, bases académiques et registres publics ; ensuite, une décomposition et vérification des critères qui casse chaque requête en checks explicites et valide chaque candidat contre des sources web en direct avant le classement ; enfin, un enrichissement de profil qui tire des données structurées {—} rôle, activité récente, voies de contact {—} pour chaque personne validée. Claude Code sur Sonnet 4.6 est un excellent harness généraliste, mais il n{’}a ni résolution d{’}entités intégrée, ni sensor de vérification, ni étape d{’}enrichissement. Ce sont des fonctions du harness, pas du modèle.

Quelle différence entre Harness Agent vertical et généraliste ?

Un Harness Agent généraliste {—} Claude Code, le Claude Agent SDK, OpenHarness {—} est agnostique au domaine et calibré pour un usage large d{’}outils et des workflows de code. Un Harness Agent vertical est construit autour d{’}un seul métier, avec des guides et des sensors taillés pour les modes d{’}échec de ce métier. La recherche de personnes a des modes d{’}échec tenaces qu{’}un harness généraliste n{’}optimisera jamais (résolution d{’}entités entre sources, profils hallucinés, décomposition multi-critères) parce qu{’}il optimise pour tout en même temps. Les Harness Agents verticaux vont avaler la longue traîne du travail agentique comme le SaaS a avalé la longue traîne du logiciel.

Essayez le Harness Agent vertical pour la recherche de personnes.

Trouvez des candidats, des clients, des investisseurs et des créateurs sur 100+ sources, vérification incluse. Essai gratuit de Lessie.

Start for free →

Related Articles