Si vous avez passé un peu de temps sur AI Twitter en 2026, vous avez vu le même mot partout : harness. Anthropic l’utilise. Salesforce a bâti toute une page produit autour. Princeton a publié un projet de recherche appelé HAL harness. Martin Fowler a écrit un long essai sur l’ingénierie de harness pour les agents de code. Et la formule que tout le monde répète est la même :
Agent = Model + Harness.
Alors qu’est-ce qu’un agent harness exactement, qui en construit, combien ça coûte, et à quoi ça ressemble vraiment en production ? Ce guide répond à toutes ces questions, puis déroule un exemple réel de la façon dont l’agent harness de recherche de personnes de Lessie trouve la bonne personne à partir d’une requête vague et multi-critères.
Qu’est-ce qu’un agent harness ?
Un agent harness, c’est l’infrastructure logicielle qui enveloppe un modèle d’IA pour gérer tout ce que le modèle ne peut pas gérer tout seul — outils, mémoire, contexte, contrôles de sécurité, récupération d’erreurs et l’ensemble du cycle de vie d’une tâche. Le modèle est le cerveau. Le harness, c’est le corps, le système nerveux et l’environnement dans lequel le cerveau opère.
La définition la plus courte vient du projet OpenHarness chez HKUDS : le modèle est l’agent, et le code est le harness. Une version un peu plus longue, tirée des billets d’ingénierie d’Anthropic : un harness, c’est tout ce qu’il y a dans un agent à part le modèle lui-même.
Pourquoi cette distinction compte-t-elle ? Parce qu’en 2025, l’industrie de l’IA supposait que de meilleurs modèles résoudraient tous les problèmes. En 2026, il est devenu clair que même le modèle frontière le plus fort — lancé sans aucun échafaudage autour — échoue sur les tâches longues, multi-étapes et réelles. Il hallucine des appels d’outils. Il perd de vue l’objectif initial après cinquante tours. Il répète la même erreur au tour 47 parce que rien ne lui a signalé l’erreur. La solution à ces échecs, ce n’est pas un modèle plus gros. La solution, c’est un agent harness.
Qu’est-ce qu’un AI agent harness, en langage clair ?
Si « agent harness » sonne encore abstrait, voici une analogie utile. Imaginez le modèle d’IA comme une nouvelle recrue brillante, le premier jour. Elle est intelligente, cultivée et capable de raisonner sur à peu près n’importe quoi. Mais elle ne sait pas où sont les toilettes, elle n’a pas accès aux outils de l’entreprise, elle ne se souvient pas de ce qui s’est dit à la réunion d’hier, et si elle fait une boulette, personne ne va la rattraper avant qu’elle n’arrive au client.
Un AI agent harness, c’est le bureau autour de cette nouvelle recrue. C’est le badge qui lui ouvre les bonnes portes, l’ordinateur avec les bons logiciels installés, le calendrier qui lui rappelle ce qu’elle doit faire aujourd’hui, le manager qui relit son travail avant qu’il ne parte, et le playbook qui lui dit quoi faire quand quelque chose casse.
Alors quand quelqu’un demande « qu’est-ce qu’un AI agent harness ? », la réponse la plus nette est celle-ci : un AI agent harness, c’est l’infrastructure opérationnelle qui transforme un modèle de langage brut en un travailleur fiable, capable de terminer des vrais boulots sans supervision constante. Sans le harness, vous avez un chatbot. Avec le harness, vous avez un agent.
Qu’est-ce qu’un agent harness en IA ? Les trois choses qu’il fait vraiment
Quand on regarde comment chaque agent harness sérieux est construit — le Claude Agent SDK d’Anthropic, le harness Agentforce de Salesforce, le HAL harness de Princeton, le projet open source OpenHarness, et les harnesses verticaux comme Lessie— ils font tous à peu près trois choses. Si vous comprenez ces trois responsabilités, vous comprenez 90 % de ce que fait un agent harness.
La première responsabilité, c’est l’ingénierie du contexte. Un modèle a une fenêtre de contexte finie, et dans toute tâche longue, cette fenêtre se remplit vite avec des logs, des sorties d’outils, des raisonnements intermédiaires et des tours précédents. Le harness décide de ce qui reste, de ce qui est résumé, de ce qu’on va rechercher à nouveau et de ce qu’on jette. Sans ingénierie du contexte, les agents souffrent de ce que les chercheurs appellent le context rot — l’objectif initial est enterré sous le bruit, et l’agent commence à dériver.
La deuxième responsabilité, c’est l’orchestration d’outils avec garde-fous. Un agent a besoin d’utiliser des outils — recherche, bases de données, APIs, systèmes de fichiers, autres agents — mais les sorties brutes des modèles sont non déterministes et produisent régulièrement des appels d’outils malformés, de mauvais paramètres ou des noms de fonctions inventés qui n’existent pas. Le harness se place entre le modèle et les outils, valide chaque appel avant son exécution, met en sandbox les opérations dangereuses et renvoie au modèle des résultats structurés et propres. C’est ça la différence entre un agent qui fonctionne une fois en démo et un agent qui fonctionne dix mille fois en production.
La troisième responsabilité, c’est la gestion du cycle de vie et de l’état. Les tâches agentiques longues peuvent prendre des minutes, des heures ou des jours. Les modèles sont sans état par défaut — chaque appel repart de zéro. Le harness donne à l’agent sa persistance : il sauvegarde des checkpoints, récupère après un crash, réessaie les étapes échouées et permet à une tâche de survivre entre les sessions. Il gère aussi les interruptions human-in-the-loop, en mettant l’agent en pause quand une décision à fort enjeu a besoin d’une approbation humaine avant de continuer.
Ces trois responsabilités — contexte, outils, cycle de vie — sont les murs porteurs de tout agent harness. Les produits les implémentent différemment, mais si l’une des trois manque, l’agent finira par échouer en production.
À quoi sert un agent harness ? Cas d’usage réels en production
Les agent harnesses apparaissent partout où quelqu’un essaie de déployer un agent IA dans un vrai workflow plutôt que dans un chat ponctuel. Les trois plus grosses catégories sont le code, l’automatisation d’entreprise et le travail de connaissance vertical.
Côté code, l’agent harness le plus visible est celui qui vit à l’intérieur de Claude Code, l’agent de code en terminal d’Anthropic. Claude Code, c’est essentiellement un modèle plus un harness soigneusement conçu qui lui donne des outils pour lire des fichiers, exécuter des commandes shell, naviguer dans des dépôts et maintenir un journal de progression entre les sessions. SWE-bench et TerminalBench-2 sont les deux principaux benchmarks utilisés par le domaine pour comparer les harnesses de code.
Côté automatisation d’entreprise, le harness dominant est Salesforce Agentforce, qui enveloppe un modèle dans un runtime conçu pour gérer les workflows CRM — mise à jour de fiches, envoi d’emails, prise de rendez-vous, résumés de dossiers et routage des demandes entre plusieurs agents spécialistes. Agentforce se positionne explicitement comme la couche harness pour le déploiement d’IA en entreprise.
Côté travail de connaissance vertical, les harnesses commencent à apparaître pour des tâches spécifiques à forte valeur : recherche juridique, raisonnement clinique, analyse financière et recherche de personnes. Ces harnesses verticaux ont tendance à être beaucoup plus étroits en portée que les harnesses généralistes, mais bien plus profonds — ils sont calibrés spécifiquement pour les modes d’échec d’un seul métier. Lessie est un exemple de cette catégorie : un agent harness vertical bâti autour de la tâche unique de trouver la bonne personne à travers les réseaux professionnels, les plateformes sociales et les bases académiques.
Harness AI DevOps agent : l’angle Salesforce
Une expression qui a gagné du terrain en 2026, c’est harness AI DevOps agent — et elle désigne presque toujours l’approche Salesforce Agentforce des opérations IA. Dans ce cadrage, l’agent harness est traité comme une pièce d’infrastructure DevOps, pas comme un artefact de recherche. C’est quelque chose que vous provisionnez, versionnez, supervisez et payez, de la même manière que vous provisionnez une base de données ou un cluster Kubernetes.
Le positionnement de Salesforce, c’est que l’agent harness est la couche manquante entre le modèle et le workflow métier. Leur argument se déroule ainsi : les entreprises ont accès à plein de modèles frontières, mais elles n’ont pas de moyen fiable de déployer ces modèles dans des workflows de production qui touchent de vraies données clients, du vrai chiffre d’affaires et de vraies exigences de conformité. Le harness, c’est ce qui rend ce déploiement sûr et opérationnellement sain. Il impose les permissions, journalise chaque action pour l’audit, gère le contexte sur les tâches longues et fournit des interruptions human-in-the-loop pour les opérations à fort enjeu.
Ce cadrage DevOps est aussi la raison pour laquelle Salesforce facture le harness plutôt que de le donner. Ce qui nous amène à la question que la plupart des lecteurs veulent vraiment voir répondre.
Qui construit des agent harnesses ? Entreprises et tarifs
Le marché de l’agent harness en 2026 se divise à peu près en quatre groupes : harnesses commerciaux entreprise, harnesses commerciaux orientés développeur, harnesses de recherche open source et harnesses commerciaux verticaux. Voici un instantané des principaux acteurs et de leurs tarifs.
Salesforce Agentforce est l’agent harness le plus commercialement agressif sur le marché. Salesforce propose plusieurs modèles de tarification. Le point d’entrée gratuit est Salesforce Foundations, qui donne une petite allocation de crédits pour tester. Au-delà, il y a deux modèles de consommation principaux : un modèle par conversation à 2 $ par conversation (définie comme toute interaction dans une fenêtre de 24 heures), et le nouveau modèle Flex Credits où chaque action consomme 20 crédits à environ 0,10 $ par action, avec des packs de crédits vendus à 500 $ pour 100 000 crédits. Pour des budgets prévisibles, Salesforce propose aussi des add-ons par utilisateur à partir de 125 $ par utilisateur par mois pour les éditions standard et 150 $ par utilisateur par mois pour les industries réglementées comme les services financiers et la santé. Les grandes entreprises peuvent acheter Agentforce 1 Edition, un palier en usage illimité qui démarre à 550 $ par utilisateur par mois. Les déploiements réels dans les ETI tombent typiquement entre 15 000 et 50 000 $ par an rien que sur Agentforce, avant de compter les coûts d’infrastructure Data Cloud, qui sont souvent requis et dépassent fréquemment la licence harness elle-même.
Le Claude Agent SDK d’Anthropic est un harness orienté développeur qui est livré dans le cadre de l’API Claude. Il n’y a pas de licence séparée — vous payez les tokens du modèle et le harness est inclus. Les tarifs Sonnet et Opus s’appliquent. Claude Code, le harness grand public bâti sur les mêmes fondations, est inclus dans les abonnements Claude Pro et Claude Max. C’est ce qui se rapproche le plus d’un agent harness « généraliste » destiné aux développeurs, et il fait tourner une bonne partie de l’écosystème des agents de code.
LangChain et LangGraph occupent une position un peu différente. Les librairies open source sont gratuites, mais la plateforme d’exécution et d’observabilité hébergée (LangSmith) est tarifée à la trace, avec un palier gratuit et des plans payants démarrant autour de 39 $ par utilisateur par mois pour les équipes. Beaucoup d’entreprises utilisent LangGraph comme couche harness sous leurs propres agents sur mesure.
Les harnesses de recherche open source incluent le HAL harness de Princeton (gratuit, conçu pour l’évaluation par benchmarks), OpenHarness de HKUDS (gratuit, licence MIT, conçu comme une implémentation de référence inspectable), et le lm-evaluation-harness d’EleutherAI (gratuit, conçu pour l’évaluation de modèles plutôt que pour le déploiement d’agents). Ce sont les harnesses vers lesquels vous vous tournez si vous voulez comprendre comment l’architecture fonctionne sous le capot, ou si vous voulez construire le vôtre.
Les harnesses verticaux sont la catégorie la plus récente. Lessie est un agent harness vertical pour la recherche de personnes, avec une tarification qui démarre gratuitement et évolue selon les crédits de recherche — plus proche d’un produit SaaS que d’une tarification d’infrastructure d’entreprise. D’autres harnesses verticaux commencent à apparaître en recherche juridique, aide à la décision clinique et analyse financière, généralement tarifés comme des abonnements SaaS plutôt qu’en consommation par action.
Ce qui est intéressant dans ce paysage, c’est l’amplitude des prix. Un harness de recherche ne coûte rien. Un harness développeur d’Anthropic coûte ce que coûtent vos tokens. Un harness entreprise commercial de Salesforce peut coûter à une ETI des dizaines de milliers de dollars par mois. Et un harness vertical comme Lessie coûte à peu près le même prix qu’un outil SaaS, parce qu’il résout un seul métier plutôt que d’essayer d’être une infrastructure pour tout. Il n’y a pas de « bon » prix unique pour un agent harness— ça dépend entièrement de ce que vous payez : un artefact de recherche, une brique pour développeur, une plateforme entreprise ou un produit vertical fini.
Un exemple réel : comment l’agent harness de Lessie trouve la bonne personne
Les définitions et les grilles tarifaires ne mènent que jusqu’à un certain point. La façon la plus claire de comprendre ce que fait vraiment un agent harness, c’est d’en regarder un travailler sur une vraie requête. Voici donc le déroulé d’une tâche unique de recherche de personnes, de bout en bout, avec chaque composant du harness signalé au moment où il s’active.
La requête est l’une des plus difficiles du dataset PeopleSearchBench :
« Trouve-moi des ingénieurs machine learning séniors dans des startups Series B à Berlin qui ont livré des produits LLM dans la dernière année et qui ont une présence publique en écriture technique. »
Une approche naïve consisterait à balancer cette phrase entière dans un moteur de recherche et à espérer le meilleur. Ça échoue pour des raisons évidentes : il n’y a pas de source unique sur Internet qui indexe « ingénieur ML sénior + Series B + Berlin + a livré un produit LLM + écrit publiquement ». L’information vit dans cinq endroits différents, et quelqu’un — ou quelque chose— doit la fusionner. C’est là que le harness mérite son salaire.
Étape 1 — Décomposition de la requête (couche ingénierie du contexte). Le harness Lessie ne passe pas la phrase brute au modèle. Il commence par casser la requête en critères explicites et vérifiables : rôle = ingénieur ML, séniorité = sénior, stade de l’entreprise = Series B, lieu = Berlin, production récente = produit LLM livré dans les 12 derniers mois, empreinte publique = présence d’écriture technique. Chaque critère devient un prédicat de vérification que les étapes suivantes vérifieront indépendamment. Cette décomposition, c’est la même méthodologie que PeopleSearchBench utilise pour scorer les plateformes de recherche, et c’est la différence entre une requête qui renvoie « des gens séniors à Berlin » et une requête qui renvoie les six bons humains.
Étape 2 — Orchestration multi-source (couche outils). Le harness dispatche la requête décomposée en parallèle sur les sources où vit réellement chaque critère. Réseaux professionnels pour le rôle actuel et la séniorité. Bases de startups et annonces de levées pour le stade d’entreprise. Signaux géographiques sur plusieurs sources pour le lieu. GitHub, pages de lancement produit et mentions de changelog pour les produits LLM livrés. Blogs personnels, Substack, dev.to et listings de talks de conférence pour la présence en écriture technique. Le modèle ne voit jamais le fan-out brut — le harness gère le parallélisme, réessaie les sources en échec et assemble un ensemble unifié de candidats.
Étape 3 — Boucle de vérification (couche sensors). C’est l’étape que la plupart des agents généralistes sautent, et c’est pour ça que la plupart des agents généralistes hallucinent des personnes qui n’existent pas. Pour chaque candidat que la couche d’orchestration fait remonter, le harness lance une passe de vérification web en direct : il vérifie chaque critère contre des sources fraîches avant d’autoriser le candidat à entrer dans l’ensemble de résultats. Si le harness ne peut pas vérifier indépendamment que « Anna Schmidt » est bien dans une entreprise Series B à Berlin, Anna Schmidt n’apparaît pas dans la sortie. C’est exactement la couche de garde-fous que Salesforce décrit dans sa documentation Agentforce, simplement spécialisée pour les modes d’échec spécifiques à la recherche de personnes.
Étape 4 — Enrichissement du profil (couche outils, deuxième passe). Une fois qu’un candidat passe la vérification, le harness va chercher les données de profil structurées : rôle et ancienneté actuels, activité récente, liens de publication, voies de contact, présence sociale. C’est pour ça que Lessie obtient le meilleur score sur la dimension Utility de PeopleSearchBench —renvoyer la bonne personne avec des champs vides n’est pas vraiment utile, et un harness généraliste n’a aucune raison intégrée de faire de l’enrichissement comme étape séparée.
Étape 5 — Classement et présentation (couche modèle). Ce n’est qu’à la toute fin que le modèle fait ce que les modèles font le mieux : lire l’ensemble de candidats vérifié et enrichi, et le classer par adéquation globale à la requête initiale. Le modèle fait un jugement, mais il fait ce jugement sur une entrée propre, vérifiée et structurée — pas sur un dump web brut et bruyant.
Toute la séquence tourne de façon autonome. Du point de vue de l’utilisateur, il a tapé une phrase et il a reçu six vraies personnes avec de vrais profils et de vraies preuves justifiant pourquoi chacune correspond. Du point de vue du harness, cette phrase unique a déclenché une décomposition de requête, une récupération parallèle multi-source, des dizaines d’appels de vérification, un enrichissement de profil et une passe finale de classement — le tout coordonné, le tout géré en erreur, le tout journalisé.
Voilà à quoi ressemble un agent harness en IA quand il fait son boulot. Le modèle fait peut-être 20 % du travail visible. Le harness fait les 80 % restants, et ces 80 %, c’est la différence entre un agent qui fonctionne en démo et un agent qui fonctionne à la 119e requête d’affilée sans casser.
Qu’est-ce que l’agent harness va signifier en 2026 et après ?
Ce qu’il y a de plus intéressant dans la conversation sur le harness en 2026, c’est qu’elle a retourné le récit standard de l’IA. Pendant trois ans, toute conversation sur les progrès de l’IA était une conversation sur la taille des modèles, l’entraînement des modèles, les benchmarks de modèles. L’hypothèse tacite était que le prochain modèle résoudrait tout ce qui était cassé dans le précédent.
La thèse du harness dit le contraire : les progrès des modèles sont réels mais ralentissent, et les gains restants en fiabilité des agents vivent dans l’infrastructure autour du modèle. Salesforce le dit dans son argumentaire tarifaire. Anthropic le dit dans la documentation de son Claude Agent SDK. Princeton le dit avec HAL harness comme plateforme de recherche. Le papier Meta-Harness de mars 2026 l’a prouvé empiriquement en montrant qu’en réécrivant automatiquement le harness autour d’un modèle figé, on peut faire monter les scores de benchmark de code de plusieurs points sans toucher aux poids.
Si la thèse est juste, deux choses en découlent. D’abord, chaque tâche agentique à valeur commerciale finira par développer son propre harness spécialisé. Le code en a déjà un. L’automatisation CRM en a un. La recherche de personnes en a un. La recherche juridique, le raisonnement clinique, l’analyse financière et l’enquête sur les chaînes d’approvisionnement auront les leurs. Les acteurs horizontaux comme Salesforce domineront la couche entreprise transverse, et les acteurs verticaux comme Lessie domineront les métiers spécifiques qui ont des modes d’échec qu’un harness généraliste n’optimisera jamais. Ensuite, les benchmarks d’agent harnesses deviendront plus importants que les benchmarks de modèles bruts. PeopleSearchBench en est un exemple précoce. Il y en aura beaucoup d’autres.
Le modèle est le moteur. Le harness est la voiture. En 2026, les voitures commencent à compter plus que les moteurs.
Si vous voulez voir un agent harness vertical à l’œuvre sur le métier pour lequel il a été bâti, essayez Lessie sur lessie.ai. Et si vous voulez la méthodologie complète de benchmark derrière l’exemple de recherche de personnes ci-dessus, le dataset et le papier PeopleSearchBench sont en open source sur lessie.ai/benchmark.
Le harness est le rempart. Les données — et les étiquettes de prix— le disent déjà.