如果你 2026 年刷过任何一点 AI Twitter,你一定见过同一个词反复出现:harness。 Anthropic 在用,Salesforce 直接围绕它做了一整个产品页,普林斯顿发布了一个叫 HAL harness 的研究项目,Martin Fowler 写了一篇关于 coding agent harness engineering 的长文。所有人重复的公式是同一条:
Agent = Model + Harness。
那 agent harness 到底是什么?谁在做?多少钱?真正跑在生产环境里又长什么样?这篇文章会回答这些问题, 然后用 Lessie 的人物搜索 harness 走一个真实的查询案例。
什么是 Agent Harness?
Agent Harness 是包裹在 AI 模型外的软件基础设施,负责模型自己搞不定的所有事情—— 工具、记忆、上下文、安全检查、错误恢复以及任务的整个生命周期。模型是大脑,harness 是身体、神经系统,以及大脑工作的整个环境。
最短的定义来自 HKUDS 的 OpenHarness 项目:模型是 agent,代码是 harness。Anthropic 工程博客里给的定义稍微长一点:harness 就是 agent 里除了模型之外的一切。
为什么这个区分重要?因为 2025 年整个 AI 行业都默认更强的模型能解决一切问题。到了 2026 年,大家终于意识到:哪怕是最强的前沿模型,如果外面没有任何脚手架,跑长链路的真实任务一样会崩。 它会幻觉出工具调用,会在第 50 轮以后忘记原始目标,会在第 47 轮重复同一个错误,因为没人告诉它上一次错过。 修这些问题的方法不是更大的模型,而是 agent harness。
用大白话讲,AI Agent Harness 到底是什么?
如果“agent harness”听起来还是太抽象,可以这样类比:把 AI 模型想象成一个绝顶聪明的新员工,今天是他入职第一天。他知识渊博,几乎什么都能推理, 但他不知道厕所在哪,没有公司工具的权限,不记得昨天会议上讲了什么,犯了错也没人在送到客户之前拦住他。
AI agent harness 就是那个新员工身边的整个办公室。是让他刷开正确房间的工卡,是装好正确软件的电脑,是提醒他今天该做什么的日历, 是审稿后才放出去的主管,是出问题时告诉他怎么处理的 playbook。
所以“什么是 AI agent harness”最干净的答案是:AI agent harness 是把一个原始的语言模型变成一个无需持续监督就能完成真实工作的可靠工人的运行基础设施。 没有 harness,你只有一个 chatbot。有了 harness,你才有一个 agent。
AI Agent Harness 在做的三件事
观察 2026 年所有严肃的 agent harness——Anthropic 的 Claude Agent SDK、Salesforce Agentforce、普林斯顿 HAL harness、开源的 OpenHarness、还有 Lessie 这样的垂直 harness——它们大体都在做三件事。理解这三件事,你就理解了 agent harness 90% 的事情。
第一件是上下文工程。模型的上下文窗口是有限的,长任务跑起来这个窗口很快就被日志、工具输出、中间推理和历史对话塞满。 Harness 决定什么要留下、什么要做摘要、什么要重新检索、什么直接丢掉。没有上下文工程,agent 就会出现研究者所说的 context rot——原始目标被噪声埋掉,agent 开始慢慢偏离任务。
第二件是带护栏的工具编排。Agent 需要使用工具——搜索、数据库、API、文件系统、其他 agent——但模型的原始输出是非确定的, 经常生成格式错误的工具调用、传错参数,甚至凭空发明根本不存在的函数名。Harness 坐在模型和工具之间,每一次调用都先校验再执行,把危险操作放进沙箱,再把干净的结构化结果喂回模型。 这就是“在 demo 里能跑一次的 agent”和“在生产里能稳定跑一万次的 agent”之间的区别。
第三件是生命周期与状态管理。长链路的 agent 任务可能跑几分钟、几小时、甚至几天。模型默认是无状态的——每一次调用都从零开始。 Harness 给 agent 加上持久化:保存检查点、从崩溃中恢复、重试失败步骤、让任务跨会话生存。 它还负责 human-in-the-loop 中断,当遇到高风险决策时暂停 agent,等人类批准后再继续。
上下文、工具、生命周期——这三根承重柱是每一个 agent harness 的骨架。不同产品实现方式不同, 但只要少了任何一根,agent 早晚会在生产环境里崩。
Agent Harness 用在哪里?真实生产案例
Agent harness 出现在任何有人想把 AI agent 部署进真实工作流而不是单次聊天的场景里。 最大的三类是:编码、企业自动化、垂直知识工作。
编码方面,最显眼的 agent harness 就是 Claude Code 内部的那一套——Anthropic 的终端编码 agent。Claude Code 本质就是模型加上一个精心设计的 harness,提供读文件、跑 shell 命令、浏览仓库、跨会话维护进度日志的能力。SWE-bench 和 TerminalBench-2 是这个领域用来比较各家编码 harness 的两个主要基准。
企业自动化方面,最主流的 harness 是 Salesforce Agentforce。它把模型包在一个为 CRM 工作流设计的运行时里——更新记录、发邮件、安排日程、汇总 case、在多个专家 agent 之间路由请求。Agentforce 在市场上的定位非常明确:它就是企业 AI 部署的 harness 层。
垂直知识工作方面,越来越多 harness 开始针对具体的高价值任务出现:法律检索、临床推理、金融分析、人物搜索。 这些垂直 harness 比通用 harness 范围窄得多,但也深得多——它们是针对一类工作的特定失败模式调优的。 Lessie 就是这一类的代表:一个围绕“在职业网络、社交平台、学术数据库里找到对的人”这一件事构建的垂直 agent harness。
Harness AI DevOps Agent:Salesforce 的视角
2026 年开始流行的一个具体说法是 harness AI DevOps agent——它几乎只指 Salesforce Agentforce 的那种思路。在这个框架下,agent harness 被当作一段 DevOps 基础设施,而不是一个研究产物。 它是你像配数据库或 Kubernetes 集群一样去开通、版本化、监控、付费的东西。
Salesforce 的论点是:agent harness 是模型和业务工作流之间缺失的那一层。他们的论证大致是: 公司不缺前沿模型,缺的是把这些模型可靠地部署到接触真实客户数据、真实收入、真实合规要求的生产工作流中的方法。 Harness 就是让这种部署既安全又运维可控的东西。它强制权限、记录每一个动作以供审计、跨长任务管理上下文, 并在高风险操作前提供 human-in-the-loop 中断。
这个 DevOps 视角也是为什么 Salesforce 选择对 harness 收钱而不是免费送的原因。说到这里, 我们就要谈大多数读者真正想知道的问题了。
谁在做 Agent Harness?公司和定价
2026 年的 agent harness 市场大致分四类:企业商业 harness、开发者商业 harness、开源研究 harness,以及垂直商业 harness。下面是主要玩家和它们的报价快照。
Salesforce Agentforce 是市面上商业化最激进的 agent harness。它有几种定价模型。 免费入门叫 Salesforce Foundations,给你一小包 credit 用于测试。再往上是两种主要的消费模型: 按对话计费的 $2/对话(一段对话定义为 24 小时窗口内的任意交互),以及更新的 Flex Credits 模型——每个动作消耗 20 个 credit,约合 $0.10/动作,credit 包按 $500/10 万 credit 出售。如果想要可预测的预算,Salesforce 也提供按用户的附加包:标准版 $125/人/月起,金融、医疗等强监管行业 $150/人/月起。大客户可以买 Agentforce 1 Edition——无限使用版——$550/人/月起。中型企业的真实部署成本通常一年在 $15,000–$50,000 之间,这还没算 Data Cloud 基础设施的钱,而后者经常比 harness 本身的 license 费用还高。
Anthropic 的 Claude Agent SDK 是一个面向开发者的 harness,作为 Claude API 的一部分发布。没有单独的 license 费——你为模型 token 付费,harness 是送的。Sonnet 和 Opus 的分级价适用于此。Claude Code,作为构建在同一基础上的面向消费者的 harness,包含在 Claude Pro 和 Claude Max 订阅里。这是目前最接近“通用”且面向开发者的 agent harness,整个 coding agent 生态有一大块跑在它上面。
LangChain 和 LangGraph 处于稍微不同的位置。开源库免费,但托管运行时和可观测性平台 (LangSmith)按 trace 计费,有免费档,团队付费档约 $39/人/月起。很多公司把 LangGraph 当作自定义 agent 下面的 harness 层。
开源研究 harness 包括普林斯顿 HAL harness(免费,为基准评测设计)、HKUDS OpenHarness(免费,MIT 协议,作为可读源码的参考实现)、EleutherAI 的 lm-evaluation-harness (免费,为模型基准而非 agent 部署设计)。如果你想搞清楚架构原理,或者想自己造一个,这些就是你要看的 harness。
垂直 harness 是最新的一类。Lessie 就是为人物搜索打造的垂直 agent harness, 免费起步,按搜索 credit 扩展——更接近 SaaS 产品而不是企业基础设施定价。法律检索、临床决策、金融分析等领域也开始出现垂直 harness,通常按 SaaS 订阅而不是按动作消费定价。
这个市场最有意思的一点是价格跨度。研究 harness 不要钱。Anthropic 的开发者 harness 跟你的模型 token 一样贵。Salesforce 的企业 harness 一年能让一家中型公司花掉几万美元一个月。 而像 Lessie 这种垂直 harness,价格跟一个 SaaS 工具差不多——因为它解决的是一件事,而不是想做万物的基础设施。Agent harness 没有一个“对的”价格,全看你买的是研究产物、开发者积木、企业平台,还是一个收尾的垂直产品。
真实案例:Lessie 的 Agent Harness 怎么找到对的人
定义和价格表只能讲到这里。理解 agent harness 真正在做什么的最清晰方式,是看着它跑一个真实查询。 下面就走一遍 Lessie 人物搜索的一个完整任务,每经过一个 harness 模块都点出来。
这条查询取自 PeopleSearchBench 数据集里比较难的一类:
“找柏林的 B 轮创业公司里的资深机器学习工程师,过去一年发布过 LLM 产品,并且有公开的技术写作。”
最朴素的做法是把整句话扔进搜索引擎然后听天由命。这肯定失败,原因显而易见:互联网上没有任何一个单一的源能同时索引“资深 ML 工程师 + B 轮 + 柏林 + 过去一年发过 LLM 产品 + 公开写技术博客”。 这些信息分散在五个不同的地方,需要有人——或者有东西——把它们融合起来。这就是 harness 拿工资的地方。
Step 1 — 查询拆解(上下文工程层)。Lessie 的 harness 不会把原句直接丢给模型。它先把查询拆成可独立校验的标准:role = ML engineer、seniority = senior、company stage = Series B、location = Berlin、recent output = 12 个月内发布过 LLM 产品、public footprint = 有技术写作。每一条标准都成为一个验证谓词,下游每一步独立去检查。 这个拆解方法和 PeopleSearchBench 给搜索平台打分的方法学一致,也是“返回柏林的资深员工”和“返回正确的六个人”之间的区别。
Step 2 — 多源编排(工具层)。Harness 把拆解后的查询并行扇出到每条标准真正存在的源。职业网络对应当前 role 和资历。 创业公司数据库和融资公告对应公司阶段。多源地理信号对应位置。GitHub、产品发布页、changelog 对应“发布过 LLM 产品”。个人博客、Substack、dev.to、会议演讲列表对应技术写作。 模型从来看不到这层原始扇出——harness 处理并行、重试失败的源,并组装成统一候选集。
Step 3 — 验证回路(传感层)。这是大多数通用 agent 跳过的一步,也是大多数通用 agent 会幻觉出根本不存在的人的原因。 对于编排层吐出的每一个候选,harness 都会跑一次实时网页验证:在候选进入结果集之前, 每一条标准都对最新的源重新核对。如果 harness 没法独立验证 “Anna Schmidt”确实在柏林一家 B 轮公司里,Anna Schmidt 就不会出现在输出里。这就是 Salesforce Agentforce 文档里描述的那一层护栏,只是为人物搜索的特定失败模式做了专门化。
Step 4 — Profile 富化(工具层,第二轮)。一旦候选通过了验证,harness 就拉取结构化的 profile 数据:当前 role 和任职时长、近期活动、 出版物链接、联系方式、社交存在。这就是为什么 Lessie 在 PeopleSearchBench 的 Utility 维度得分最高——返回一个空白字段全是空的人没有任何用,而通用 harness 没有任何内置理由把富化作为单独一步去做。
Step 5 — 排序与呈现(模型层)。整个流程的最后一步,模型才做它真正擅长的事:读取已验证、已富化、已结构化的候选集,按整体匹配度排序。 这是一次判断,但是基于干净、已验证、结构化的输入做的判断——而不是基于一坨噪声很大的网页 dump 做的判断。
整个序列全自动跑完。从用户视角,他打了一句话,拿回了六个真实的人,每个人都有真实的 profile 和匹配的证据。从 harness 视角,那一句话触发了查询拆解、并行多源检索、几十次验证调用、profile 富化和最终排序——全部协调好、全部错误处理过、全部记录下来。
这就是一个 agent harness 真正在工作时是什么样子。模型大概只做了你能看到的 20% 的事。Harness 做了剩下的 80%——而那 80% 就是“在 demo 里能跑一次的 agent”和“连续跑 119 次都不崩的 agent”之间的差距。
2026 年以后,Agent Harness 意味着什么?
2026 年关于 harness 的讨论里最有意思的一点是:它把过去几年标准的 AI 叙事彻底颠倒了。 三年里,每一次关于 AI 进步的讨论都是关于模型规模、模型训练、模型基准的讨论。背后没说出口的假设是: 下一个模型会修掉这一个模型搞不定的所有问题。
Harness 论调说的恰恰相反:模型进步是真实的,但在放慢,agent 可靠性剩下的空间全部在模型外面的基础设施里。 Salesforce 在它的定价宣传里讲这件事。Anthropic 在 Claude Agent SDK 的文档里讲这件事。 普林斯顿用 HAL harness 这个研究平台讲这件事。2026 年 3 月的 Meta-Harness 论文用经验证据讲了这件事——它证明,在一个固定的模型外面自动重写 harness,可以在不动一根权重的情况下, 把编码基准分数提升好几个点。
如果这个论调是对的,有两件事会跟着发生。第一,每一类商业上有价值的 agent 任务都会长出自己的专用 harness。编码已经有了。CRM 自动化已经有了。人物搜索已经有了。 法律检索、临床推理、金融分析、供应链调查也会跟上。横向玩家如 Salesforce 会主导跨职能的企业层, 垂直玩家如 Lessie 会主导那些有通用 harness 永远也不会去优化的失败模式的具体任务。第二,agent harness 的基准会比原始模型的基准更重要。PeopleSearchBench 是一个早期例子。后面会有很多。
模型是发动机,harness 是车。2026 年,车开始比发动机更重要。
如果你想看一个垂直 agent harness 在它专门为之打造的工作上怎么跑,到 lessie.ai 试 Lessie。如果你想看上面那个人物搜索案例背后完整的基准方法学, PeopleSearchBench 的数据集和论文在 lessie.ai/benchmark 开源。
Harness 就是护城河。数据——和价格表——已经这么说了。