如果你 2026 年刷過任何一點 AI Twitter,你一定見過同一個詞反覆出現:harness。 Anthropic 在用,Salesforce 直接圍繞它做了一整個產品頁,普林斯頓發布了一個叫 HAL harness 的研究專案,Martin Fowler 寫了一篇關於 coding agent harness engineering 的長文。所有人重複的公式是同一條:
Agent = Model + Harness。
那 agent harness 到底是什麼?誰在做?多少錢?真正跑在生產環境裡又長什麼樣?這篇文章會回答這些問題, 然後用 Lessie 的人脈搜尋 harness 走一個真實的查詢案例。
什麼是 Agent Harness?
Agent Harness 是包裹在 AI 模型外的軟體基礎設施,負責模型自己搞不定的所有事情——工具、記憶、上下文、安全檢查、錯誤恢復以及任務的整個生命週期。模型是大腦,harness 是身體、神經系統,以及大腦工作的整個環境。
最短的定義來自 HKUDS 的 OpenHarness 專案:模型是 agent,程式碼是 harness。Anthropic 工程部落格裡給的定義稍微長一點:harness 就是 agent 裡除了模型之外的一切。
為什麼這個區分重要?因為 2025 年整個 AI 行業都預設更強的模型能解決一切問題。到了 2026 年,大家終於意識到:哪怕是最強的前沿模型,如果外面沒有任何鷹架,跑長鏈路的真實任務一樣會崩。 它會幻覺出工具呼叫,會在第 50 輪以後忘記原始目標,會在第 47 輪重複同一個錯誤,因為沒人告訴它上一次錯過。 修這些問題的方法不是更大的模型,而是 agent harness。
用大白話講,AI Agent Harness 到底是什麼?
如果“agent harness”聽起來還是太抽象,可以這樣類比:把 AI 模型想像成一個絕頂聰明的新員工,今天是他入職第一天。他知識淵博,幾乎什麼都能推理, 但他不知道廁所在哪,沒有公司工具的權限,不記得昨天會議上講了什麼,犯了錯也沒人在送到客戶之前攔住他。
AI agent harness 就是那個新員工身邊的整個辦公室。是讓他刷開正確房間的工卡,是裝好正確軟體的電腦,是提醒他今天該做什麼的行事曆, 是審稿後才放出去的主管,是出問題時告訴他怎麼處理的 playbook。
所以“什麼是 AI agent harness”最乾淨的答案是:AI agent harness 是把一個原始的語言模型變成一個無需持續監督就能完成真實工作的可靠工人的執行基礎設施。 沒有 harness,你只有一個 chatbot。有了 harness,你才有一個 agent。
AI Agent Harness 在做的三件事
觀察 2026 年所有嚴肅的 agent harness——Anthropic 的 Claude Agent SDK、Salesforce Agentforce、普林斯頓 HAL harness、開源的 OpenHarness、還有 Lessie 這樣的垂直 harness——它們大體都在做三件事。理解這三件事,你就理解了 agent harness 90% 的事情。
第一件是上下文工程。模型的上下文視窗是有限的,長任務跑起來這個視窗很快就被日誌、工具輸出、中間推理和歷史對話塞滿。 Harness 決定什麼要留下、什麼要做摘要、什麼要重新檢索、什麼直接丟掉。沒有上下文工程,agent 就會出現研究者所說的 context rot——原始目標被噪聲埋掉,agent 開始慢慢偏離任務。
第二件是帶護欄的工具編排。Agent 需要使用工具——搜尋、資料庫、API、檔案系統、其他 agent——但模型的原始輸出是非確定的, 經常生成格式錯誤的工具呼叫、傳錯參數,甚至憑空發明根本不存在的函數名。Harness 坐在模型和工具之間,每一次呼叫都先校驗再執行,把危險操作放進沙箱,再把乾淨的結構化結果餵回模型。 這就是“在 demo 裡能跑一次的 agent”和“在生產裡能穩定跑一萬次的 agent”之間的區別。
第三件是生命週期與狀態管理。長鏈路的 agent 任務可能跑幾分鐘、幾小時、甚至幾天。模型預設是無狀態的——每一次呼叫都從零開始。 Harness 給 agent 加上持久化:儲存檢查點、從崩潰中恢復、重試失敗步驟、讓任務跨會話生存。 它還負責 human-in-the-loop 中斷,當遇到高風險決策時暫停 agent,等人類批准後再繼續。
上下文、工具、生命週期——這三根承重柱是每一個 agent harness 的骨架。不同產品實作方式不同, 但只要少了任何一根,agent 早晚會在生產環境裡崩。
Agent Harness 用在哪裡?真實生產案例
Agent harness 出現在任何有人想把 AI agent 部署進真實工作流而不是單次聊天的場景裡。 最大的三類是:編碼、企業自動化、垂直知識工作。
編碼方面,最顯眼的 agent harness 就是 Claude Code 內部的那一套——Anthropic 的終端編碼 agent。Claude Code 本質就是模型加上一個精心設計的 harness,提供讀檔案、跑 shell 命令、瀏覽倉庫、跨會話維護進度日誌的能力。SWE-bench 和 TerminalBench-2 是這個領域用來比較各家編碼 harness 的兩個主要基準。
企業自動化方面,最主流的 harness 是 Salesforce Agentforce。它把模型包在一個為 CRM 工作流設計的執行階段裡——更新記錄、發郵件、安排行程、彙總 case、在多個專家 agent 之間路由請求。Agentforce 在市場上的定位非常明確:它就是企業 AI 部署的 harness 層。
垂直知識工作方面,越來越多 harness 開始針對具體的高價值任務出現:法律檢索、臨床推理、金融分析、人脈搜尋。 這些垂直 harness 比通用 harness 範圍窄得多,但也深得多——它們是針對一類工作的特定失敗模式調校的。 Lessie 就是這一類的代表:一個圍繞“在職業網絡、社群平台、學術資料庫裡找到對的人”這一件事建構的垂直 agent harness。
Harness AI DevOps Agent:Salesforce 的視角
2026 年開始流行的一個具體說法是 harness AI DevOps agent——它幾乎只指 Salesforce Agentforce 的那種思路。在這個框架下,agent harness 被當作一段 DevOps 基礎設施,而不是一個研究產物。 它是你像配資料庫或 Kubernetes 叢集一樣去開通、版本化、監控、付費的東西。
Salesforce 的論點是:agent harness 是模型和業務工作流之間缺失的那一層。他們的論證大致是: 公司不缺前沿模型,缺的是把這些模型可靠地部署到接觸真實客戶資料、真實收入、真實合規要求的生產工作流中的方法。 Harness 就是讓這種部署既安全又維運可控的東西。它強制權限、記錄每一個動作以供稽核、跨長任務管理上下文, 並在高風險操作前提供 human-in-the-loop 中斷。
這個 DevOps 視角也是為什麼 Salesforce 選擇對 harness 收錢而不是免費送的原因。說到這裡, 我們就要談大多數讀者真正想知道的問題了。
誰在做 Agent Harness?公司和定價
2026 年的 agent harness 市場大致分四類:企業商業 harness、開發者商業 harness、開源研究 harness,以及垂直商業 harness。下面是主要玩家和它們的報價快照。
Salesforce Agentforce 是市面上商業化最激進的 agent harness。它有幾種定價模型。 免費入門叫 Salesforce Foundations,給你一小包 credit 用於測試。再往上是兩種主要的消費模型: 按對話計費的 $2/對話(一段對話定義為 24 小時視窗內的任意互動),以及更新的 Flex Credits 模型——每個動作消耗 20 個 credit,約合 $0.10/動作,credit 包按 $500/10 萬 credit 出售。如果想要可預測的預算,Salesforce 也提供按使用者的附加包:標準版 $125/人/月起,金融、醫療等強監管行業 $150/人/月起。大客戶可以買 Agentforce 1 Edition——無限使用版——$550/人/月起。中型企業的真實部署成本通常一年在 $15,000–$50,000 之間,這還沒算 Data Cloud 基礎設施的錢,而後者經常比 harness 本身的 license 費用還高。
Anthropic 的 Claude Agent SDK 是一個面向開發者的 harness,作為 Claude API 的一部分發布。沒有單獨的 license 費——你為模型 token 付費,harness 是送的。Sonnet 和 Opus 的分級價適用於此。Claude Code,作為建構在同一基礎上的面向消費者的 harness,包含在 Claude Pro 和 Claude Max 訂閱裡。這是目前最接近“通用”且面向開發者的 agent harness,整個 coding agent 生態有一大塊跑在它上面。
LangChain 和 LangGraph 處於稍微不同的位置。開源庫免費,但託管執行階段和可觀測性平台 (LangSmith)按 trace 計費,有免費檔,團隊付費檔約 $39/人/月起。很多公司把 LangGraph 當作自定義 agent 下面的 harness 層。
開源研究 harness 包括普林斯頓 HAL harness(免費,為基準評測設計)、HKUDS OpenHarness(免費,MIT 協議,作為可讀源碼的參考實作)、EleutherAI 的 lm-evaluation-harness (免費,為模型基準而非 agent 部署設計)。如果你想搞清楚架構原理,或者想自己造一個,這些就是你要看的 harness。
垂直 harness 是最新的一類。Lessie 就是為人脈搜尋打造的垂直 agent harness, 免費起步,按搜尋 credit 擴展——更接近 SaaS 產品而不是企業基礎設施定價。法律檢索、臨床決策、金融分析等領域也開始出現垂直 harness,通常按 SaaS 訂閱而不是按動作消費定價。
這個市場最有意思的一點是價格跨度。研究 harness 不要錢。Anthropic 的開發者 harness 跟你的模型 token 一樣貴。Salesforce 的企業 harness 一年能讓一家中型公司花掉幾萬美元一個月。 而像 Lessie 這種垂直 harness,價格跟一個 SaaS 工具差不多——因為它解決的是一件事,而不是想做萬物的基礎設施。Agent harness 沒有一個“對的”價格,全看你買的是研究產物、開發者積木、企業平台,還是一個收尾的垂直產品。
真實案例:Lessie 的 Agent Harness 怎麼找到對的人
定義和價格表只能講到這裡。理解 agent harness 真正在做什麼的最清晰方式,是看著它跑一個真實查詢。 下面就走一遍 Lessie 人脈搜尋的一個完整任務,每經過一個 harness 模組都點出來。
這條查詢取自 PeopleSearchBench 資料集裡比較難的一類:
“找柏林的 B 輪新創公司裡的資深機器學習工程師,過去一年發布過 LLM 產品,並且有公開的技術寫作。”
最樸素的做法是把整句話扔進搜尋引擎然後聽天由命。這肯定失敗,原因顯而易見:網際網路上沒有任何一個單一的源能同時索引“資深 ML 工程師 + B 輪 + 柏林 + 過去一年發過 LLM 產品 + 公開寫技術部落格”。 這些資訊分散在五個不同的地方,需要有人——或者有東西——把它們融合起來。這就是 harness 拿薪水的地方。
Step 1 — 查詢拆解(上下文工程層)。Lessie 的 harness 不會把原句直接丟給模型。它先把查詢拆成可獨立校驗的標準:role = ML engineer、seniority = senior、company stage = Series B、location = Berlin、recent output = 12 個月內發布過 LLM 產品、public footprint = 有技術寫作。每一條標準都成為一個驗證述詞,下游每一步獨立去檢查。 這個拆解方法和 PeopleSearchBench 給搜尋平台打分的方法學一致,也是“返回柏林的資深員工”和“返回正確的六個人”之間的區別。
Step 2 — 多源編排(工具層)。Harness 把拆解後的查詢並行扇出到每條標準真正存在的源。職業網絡對應目前 role 和資歷。 新創公司資料庫和融資公告對應公司階段。多源地理訊號對應位置。GitHub、產品發布頁、changelog 對應“發布過 LLM 產品”。個人部落格、Substack、dev.to、會議演講列表對應技術寫作。 模型從來看不到這層原始扇出——harness 處理並行、重試失敗的源,並組裝成統一候選集。
Step 3 — 驗證迴路(感測層)。這是大多數通用 agent 跳過的一步,也是大多數通用 agent 會幻覺出根本不存在的人的原因。 對於編排層吐出的每一個候選,harness 都會跑一次即時網頁驗證:在候選進入結果集之前, 每一條標準都對最新的源重新核對。如果 harness 沒法獨立驗證 “Anna Schmidt”確實在柏林一家 B 輪公司裡,Anna Schmidt 就不會出現在輸出裡。這就是 Salesforce Agentforce 文件裡描述的那一層護欄,只是為人脈搜尋的特定失敗模式做了專門化。
Step 4 — Profile 富化(工具層,第二輪)。一旦候選通過了驗證,harness 就拉取結構化的 profile 資料:目前 role 和任職時長、近期活動、 出版物連結、聯絡方式、社群存在。這就是為什麼 Lessie 在 PeopleSearchBench 的 Utility 維度得分最高——返回一個空白欄位全是空的人沒有任何用,而通用 harness 沒有任何內建理由把富化作為單獨一步去做。
Step 5 — 排序與呈現(模型層)。整個流程的最後一步,模型才做它真正擅長的事:讀取已驗證、已富化、已結構化的候選集,按整體匹配度排序。 這是一次判斷,但是基於乾淨、已驗證、結構化的輸入做的判斷——而不是基於一坨噪聲很大的網頁 dump 做的判斷。
整個序列全自動跑完。從使用者視角,他打了一句話,拿回了六個真實的人,每個人都有真實的 profile 和匹配的證據。從 harness 視角,那一句話觸發了查詢拆解、並行多源檢索、幾十次驗證呼叫、profile 富化和最終排序——全部協調好、全部錯誤處理過、全部記錄下來。
這就是一個 agent harness 真正在工作時是什麼樣子。模型大概只做了你能看到的 20% 的事。Harness 做了剩下的 80%——而那 80% 就是“在 demo 裡能跑一次的 agent”和“連續跑 119 次都不崩的 agent”之間的差距。
2026 年以後,Agent Harness 意味著什麼?
2026 年關於 harness 的討論裡最有意思的一點是:它把過去幾年標準的 AI 敘事徹底顛倒了。 三年裡,每一次關於 AI 進步的討論都是關於模型規模、模型訓練、模型基準的討論。背後沒說出口的假設是: 下一個模型會修掉這一個模型搞不定的所有問題。
Harness 論調說的恰恰相反:模型進步是真實的,但在放慢,agent 可靠性剩下的空間全部在模型外面的基礎設施裡。 Salesforce 在它的定價宣傳裡講這件事。Anthropic 在 Claude Agent SDK 的文件裡講這件事。 普林斯頓用 HAL harness 這個研究平台講這件事。2026 年 3 月的 Meta-Harness 論文用經驗證據講了這件事——它證明,在一個固定的模型外面自動重寫 harness,可以在不動一根權重的情況下, 把編碼基準分數提升好幾個點。
如果這個論調是對的,有兩件事會跟著發生。第一,每一類商業上有價值的 agent 任務都會長出自己的專用 harness。編碼已經有了。CRM 自動化已經有了。人脈搜尋已經有了。 法律檢索、臨床推理、金融分析、供應鏈調查也會跟上。橫向玩家如 Salesforce 會主導跨職能的企業層, 垂直玩家如 Lessie 會主導那些有通用 harness 永遠也不會去最佳化的失敗模式的具體任務。第二,agent harness 的基準會比原始模型的基準更重要。PeopleSearchBench 是一個早期例子。後面會有很多。
模型是引擎,harness 是車。2026 年,車開始比引擎更重要。
如果你想看一個垂直 agent harness 在它專門為之打造的工作上怎麼跑,到 lessie.ai 試 Lessie。如果你想看上面那個人脈搜尋案例背後完整的基準方法學, PeopleSearchBench 的資料集和論文在 lessie.ai/benchmark 開源。
Harness 就是護城河。資料——和價格表——已經這麼說了。