En 2026, la phrase la plus intéressante en IA ne parle pas d’un nouveau modèle. C’est une formule sur laquelle Anthropic, Martin Fowler et la moitié de la communauté de recherche en IA ont convergé ces dernières semaines :
Agent = Model + Harness.
Si vous traînez sur AI Twitter en ce moment, vous avez vu le mot harness partout. Princeton a publié HAL harness. HKUDS a libéré OpenHarness en open source. Un nouveau papier Meta-Harness a montré que réécrire automatiquement le harness autour d’un modèle figé peut faire grimper TerminalBench-2 de plusieurs points sans toucher aux poids. Philipp Schmid a qualifié l’agent harness d’« outil principal pour résoudre la dérive de modèle dans les tâches longues ».
Mais voici ce que personne ne dit à voix haute : presque toute la conversation sur le harness en 2026 porte sur des agents de code. Claude Code. SWE-bench. Tâches en terminal. Navigation de dépôt.
Et tout le reste ? Le travail agentique qui ne touche pas un dépôt Git ?
Nous sommes Lessie, et nous construisons un Harness Agent pour un seul métier : trouver des gens. Les recruteurs s’en servent pour trouver des candidats. Les équipes commerciales pour trouver les décideurs. Les VCs pour trouver des fondateurs. Les marketeurs pour trouver des créateurs. Quand la conversation sur le harness a explosé, on voulait donc savoir une chose concrète : la thèse du « le harness compte plus que le modèle » tient-elle vraiment hors du code ?
Alors on a construit un benchmark et lancé l’expérience. Le résultat s’appelle PeopleSearchBench, et le titre, c’est ça :
Sur 119 requêtes réelles de recherche de personnes, Lessie a obtenu 65,2. Claude Code, sur Sonnet 4.6, a obtenu 45,8. Soit 42 % d’écart —et la seule chose qui a changé, c’est le harness.
Voyons ce que ça signifie.
Un Harness Agent, c’est quoi en clair ?
La définition la plus courte vient de l’équipe OpenHarness : le modèle est l’agent ; le code est le harness. Une plus longue, signée Parallel Web : un harness, c’est le runtime qui enveloppe un modèle, intercepte ses appels d’outils, gère son contexte et le maintient sur sa tâche.
Martin Fowler en parle comme de deux moitiés qui travaillent ensemble.Guides : contrôles feed-forward qui forment le comportement de l’agent avant qu’il agisse (system prompts, descriptions d’outils, contexte récupéré, snapshots de l’environnement).Sensors : contrôles de feedback qui observent ce que l’agent a fait et réinjectent les corrections (linters, validateurs, boucles de vérification). Un bon harness combine les deux. Un mauvais harness n’est que feed-forward et regarde l’agent répéter la même erreur au tour 47.
Un Harness Agent, c’est donc l’ensemble : modèle + guides + sensors + outils + mémoire + logique de vérification. Ce qui transforme la prédiction brute de tokens en quelque chose qui termine vraiment un boulot.
Deux saveurs émergent :
- Harnesses généralistes comme le Claude Agent SDK, OpenHarness ou le harness intégré à Claude Code. Conçus pour être agnostiques au domaine.
- Harnesses verticaux bâtis autour d’un seul métier, avec des guides et des sensors taillés pour les modes d’échec de ce métier.
Presque tous les benchmarks de harness dont vous avez entendu parler — SWE-bench, TerminalBench-2, USACO, AppWorld — mesurent des harnesses généralistes sur des tâches de code. À notre connaissance, PeopleSearchBench est le premier benchmark qui oppose un Harness Agent vertical à un harness généraliste sur un métier qui n’est pas du code.
Pourquoi la recherche de personnes a besoin de son propre harness
Si vous avez déjà demandé à un agent IA généraliste : « trouve-moi des ingénieurs ML séniors dans des startups Series B à Berlin qui ont livré des produits LLM », vous connaissez déjà les modes d’échec. Trois sont particulièrement tenaces, et tous les trois sont des problèmes de harness, pas de modèle :
1. Résolution d’entités entre sources.Une vraie personne existe à travers LinkedIn, X, GitHub, conférences, pages d’entreprise et bases académiques. Elle utilise des noms différents, des photos différentes, parfois même des orthographes différentes. Un harness généraliste n’a pas de notion intégrée que « ce profil LinkedIn et ce compte GitHub, c’est le même humain ». Un harness de recherche de personnes doit régler ça à chaque requête.
2. Boucles de vérification.Sans couche de sensors, les agents inventent des personnes avec un aplomb total. Ils citeront un « Senior ML Engineer chez Stripe Berlin » qui n’existe pas, parce que les tokens semblent plausibles. La solution n’est pas un modèle plus intelligent — Sonnet 4.6 dans Claude Code fait pareil. La solution, c’est un sensor : chaque personne renvoyée est vérifiée contre des sources web en direct avant d’arriver à l’utilisateur.
3. Décomposition de requêtes pour des attributs humains.« Ingénieur ML à Berlin, Series B, qui a livré des produits LLM » n’est pas une requête : c’est une checklist — rôle + séniorité + stade de la société + lieu + domaine + production récente. Un harness généraliste balance la phrase entière dans une boîte de recherche. Un harness vertical la décompose en critères, les lance en parallèle sur les bonnes sources, puis recompose et classe.
Ces trois choses sont exactement ce que Fowler appelle guides et sensors. Sauf que ce sont des guides et des sensors que personne ne s’embête à câbler dans un harness généraliste de code, parce qu’un harness de code n’en a pas besoin.
Les preuves : PeopleSearchBench
Nous avons construit PeopleSearchBench pour tester ça honnêtement. La méthodologie complète est dans le papier, mais voici la version courte :
- 119 requêtes réelles, tirées de vrais workflows de recrutement, de vente et de recherche
- 4 langues (anglais, portugais, espagnol, néerlandais)
- 4 scénarios : Recrutement (30), Prospection B2B (32), Expert / Déterministe (28), Influencer / KOL (29)
- 4 plateformes : Lessie (Harness Agent vertical), Exa (API de recherche structurée), Juicebox / PeopleGPT (plateforme de recrutement avec 800M+ profils), Claude Code (harness généraliste sur Sonnet 4.6)
- Trois dimensions indépendantes : Relevance (padded nDCG@10), Coverage (taux de complétion × rendement), Utility (complétude des données du profil)
- Vérification par recherche web en direct, pas au feeling d’un LLM : chaque personne renvoyée est confrontée à LinkedIn, sites d’entreprise et profils publics. L’agent vérificateur ne sait pas quelle plateforme a produit quel résultat.
Voici les scores globaux :
- Lessie : Global 65,2 | Relevance 70,2 | Coverage 69,1 | Utility 56,4
- Exa : Global 54,6 | Relevance 53,8 | Coverage 58,1 | Utility 53,1
- Claude Code : Global 45,8 | Relevance 54,3 | Coverage 41,1 | Utility 42,7
- Juicebox : Global 45,8 | Relevance 44,7 | Coverage 41,8 | Utility 50,9
Lessie est première sur chaque dimension. C’est aussi la seule plateforme à avoir bouclé l’intégralité des 119 requêtes — un taux de complétion de 100 %. Les trois autres ne renvoyaient régulièrement rien sur les recherches de niche.
Mais le chiffre qui compte le plus pour le débat sur le harness, c’est l’écart entre Lessie et Claude Code. Les deux sont des agents IA. Les deux peuvent appeler des outils. Les deux peuvent chercher sur le web. Claude Code tourne sur l’un des modèles les plus puissants de la planète. Et il a perdu de 19,4 points au global, dont 28 points rien que sur la Coverage.
Ces 19,4 points ne sont pas un écart de modèle. C’est un écart de harness.
Le plus gros écart sur un seul scénario s’est joué sur la découverte d’Influencers / KOL : Lessie 62,3, Claude Code 43,2. La recherche d’influenceurs, c’est l’endroit où les harnesses généralistes se cassent le plus violemment, parce que la bonne réponse vit en même temps sur TikTok, Instagram, YouTube et X, et qu’un harness généraliste ne sait pas les fusionner. L’écart le plus serré était sur le recrutement, où trois plateformes passent les 64 points — le recrutement est la verticale la plus mature en recherche de personnes, et l’industrie a passé des années à fabriquer des outils pour elle.
Le motif est constant : plus un scénario exige de fusion multi-source et de vérification, plus le harness compte.
Ce qu’il y a dans le harness de Lessie
Nous ne publierons pas nos system prompts. Mais l’architecture a trois couches qui s’inscrivent proprement dans le modèle guides-sensors, et qui valent le coup d’être décrites parce que ce sont à peu près celles dont tout Harness Agent vertical aura besoin :
Couche 1 — Orchestration multi-source (guides).Quand une requête arrive, le harness la route en parallèle vers réseaux professionnels, plateformes sociales, bases académiques et registres publics. Chaque source a sa propre stratégie de récupération. Le modèle ne voit jamais le fan-out brut : il voit un ensemble unifié de candidats.
Couche 2 — Décomposition de critères et vérification (sensors).Chaque requête est cassée en critères explicites — rôle, séniorité, lieu, stade d’entreprise, signaux — et chaque candidat est vérifié contre ces critères via des recherches web en direct avant l’étape de classement. C’est exactement la méthodologie que PeopleSearchBench utilise pour nous noter, et ce n’est pas un hasard : nous avons construit le harness autour des modes d’échec que le benchmark mesure.
Couche 3 — Enrichissement de profil.Une fois la personne validée, le harness va chercher des données structurées de profil : rôle actuel, activité récente, voies de contact, présence sociale. C’est pour ça que notre score Utility domine le terrain : renvoyer la bonne personne avec des champs vides ne sert à rien, et un harness généraliste n’a aucune raison d’intégrer l’enrichissement comme étape par défaut.
Le modèle au milieu fait ce que les modèles savent faire : raisonner, classer, résumer, juger. Le harness fait tout le reste. Enlevez le harness, vous avez un chatbot. Enlevez le modèle, vous avez un pipeline de recherche. Mettez les deux ensemble, vous avez un Harness Agent vertical.
Ce que ça veut dire pour le débat sur le harness
L’affirmation intéressante qui sort de la conversation sur le harness en 2026, c’est que les progrès des modèles sur les benchmarks statiques ralentissent, mais que la performance agentique reste largement ouverte, parce que la majorité des gains restants vit dans le harness. Meta-Harness l’a montré côté code en découvrant automatiquement de meilleurs harnesses. PeopleSearchBench le montre depuis l’autre bout : un harness vertical bâti à la main peut battre un modèle frontière dans un harness généraliste de plusieurs longueurs — des écarts qu’aucune mise à jour de modèle ne va combler.
Si c’est vrai, deux choses en découlent.
D’abord, chaque métier agentique de valeur commerciale aura son propre Harness Agent.La recherche de personnes en est un. La recherche juridique aussi. Raisonnement clinique, analyse financière, enquête sur les chaînes d’approvisionnement, revue de littérature scientifique — chacun a des modes d’échec qu’un harness généraliste n’optimisera jamais, parce qu’il optimise pour tout à la fois. Les Harness Agents verticaux vont avaler la longue traîne du travail agentique comme le SaaS a avalé la longue traîne du logiciel.
Ensuite, les benchmarks doivent suivre.SWE-bench et TerminalBench-2 sont excellents, mais ils mesurent une seule tranche de la qualité du harness. Si le domaine prend la thèse du harness au sérieux, il faut un benchmark de harness pour chaque verticale qui compte. PeopleSearchBench est notre tentative de lancer ça pour la recherche de personnes. Le dataset, le pipeline d’évaluation et les résultats complets sont en open source.
Le modèle est le moteur. Le harness est la voiture.Nous avons construit cette voiture pour une seule route. Si votre métier consiste à trouver des gens — candidats, clients, investisseurs, créateurs, partenaires — essayez la voiture :lessie.ai. Et si vous voulez voir précisément comment on a battu un agent de code à modèle frontière sur quelque chose pour quoi il n’a jamais été conçu, le benchmark complet et le papier sont ici.
En 2026, le harness, c’est le rempart. Les chiffres le disent.