2026年のAI Twitterに少しでも時間を費やしたなら、どこでも同じ単語を目にしたはずだ:harness。Anthropicは使っている。Salesforceはこの言葉を軸にした製品ページをまるごと作った。 PrincetonはHAL harnessという研究プロジェクトを公開した。 Martin Fowlerはコーディングエージェントのためのharnessエンジニアリングについて長文のエッセイを書いた。 そして誰もが繰り返す公式は同じだ:
Agent = Model + Harness。
では、Agent Harnessとは具体的に何なのか。誰が作り、いくらかかり、本番環境では実際どう見えるのか。 本稿はこれらすべての問いに答え、続いてLessieの人材検索Agent Harnessが 曖昧で複数条件のクエリから適切な人物をどう見つけ出すのか、実例で辿っていく。
Agent Harnessとは何か?
Agent Harnessとは、AIモデルを包み込むソフトウェアインフラであり、 モデル自身では管理しきれないすべてを引き受けるもの──ツール、メモリ、コンテキスト、 安全チェック、エラー復旧、そしてタスクのライフサイクル全体──のことだ。 モデルは脳。Harnessは体であり、神経系であり、脳が活動する環境である。
最も短い定義はHKUDSのOpenHarnessプロジェクトが与えている:モデルがAgentで、コードがHarnessだ。 Anthropic自身のエンジニアリング投稿からの、やや長めの定義はこうだ──Harnessとは、Agentのうちモデル以外のすべてである。
この区別がなぜ重要なのか?2025年、AI業界はより良いモデルがあらゆる問題を解決すると仮定していた。 しかし2026年になると、最強のフロンティアモデルでさえ──周囲に足場を持たずに走らせれば── 長大でマルチステップの現実タスクで失敗することが明らかになった。ツール呼び出しを幻覚する。 50ターン後には元々の目標を見失う。何も「その間違いが起きた」と教えないから、47ターン目に同じ失敗を繰り返す。 こうした失敗の修正は、より大きなモデルではない。修正はAgent Harnessだ。
AI Agent Harnessとは、平易に言うと?
“Agent Harness”という言葉がまだ抽象的に聞こえるなら、役に立つアナロジーがある。 AIモデルを、入社初日の優秀な新人だと想像してほしい。賢く、博識で、ほとんど何でも推論できる。 だがトイレの場所を知らないし、会社のツールへのアクセス権もない。 昨日の会議で何があったかも覚えていない。そして何かやらかしたら、顧客に届く前に誰かが止めてくれるわけでもない。
AI Agent Harnessとは、その新人を取り囲むオフィスそのものだ。適切な部屋に入れる社員証。 適切なソフトウェアが入ったノートPC。今日やるべき仕事を思い出させてくれるカレンダー。 外に出る前に仕事をレビューしてくれるマネージャー。何か壊れたときに従うべきプレイブック。
だから“AI Agent Harnessとは何か”と聞かれたら、最もすっきりした答えはこうだ:AI Agent Harnessとは、生の言語モデルを、絶え間ない監督なしに現実の仕事を完遂できる 信頼できるワーカーへと変える運用インフラのことだ。Harnessがなければチャットボットしかない。Harnessがあれば、そこにAgentが現れる。
AIにおけるAgent Harnessとは?それが実際にやる3つのこと
まともなAIのAgent Harnessはどれも──Anthropicの Claude Agent SDK、SalesforceのAgentforce Harness、PrincetonのHAL harness、 オープンソースのOpenHarnessプロジェクト、そしてLessieのような垂直Harnessまで── 見てみればおおむね3つの仕事をしている。この3つの責務を理解すれば、 Agent Harnessが何をしているかの90%は理解できたことになる。
第一の責務はコンテキストエンジニアリングだ。モデルのコンテキストウィンドウは有限で、長いタスクではログ、ツール出力、中間推論、 過去のターンで窓はすぐに埋まる。Harnessは何を残し、何を要約し、何を新たに取ってきて、 何を捨てるかを決める。コンテキストエンジニアリングがなければ、研究者の言う“context rot”にAgentは苦しむ──元々の目標がノイズに埋もれ、Agentはタスクから逸れていく。
第二の責務はガードレール付きのツールオーケストレーションだ。Agentはツールを使う必要がある──検索、データベース、API、ファイルシステム、他のAgent──が、 モデルの生出力は非決定論的で、日常的に不正なツール呼び出し、誤ったパラメータ、 存在しない関数名のでっち上げを生む。Harnessはモデルとツールの間に座り、 走らせる前にすべての呼び出しを検証し、危険な操作をサンドボックス化し、 きれいに構造化された結果をモデルに返す。これがデモで一度動くAgentと、 本番で1万回動くAgentの違いである。
第三の責務はライフサイクルと状態管理だ。長時間のAgentタスクは数分、数時間、あるいは数日かかることがある。 モデルは既定ではステートレスだ──あらゆる呼び出しはゼロから始まる。 Harnessは永続性をAgentに与える:チェックポイントを保存し、クラッシュから回復し、 失敗したステップをリトライし、セッションをまたいでタスクを生き延びさせる。 さらに、Human-in-the-loopの割り込みも扱う──高リスクの判断で続行前に人間の承認が必要なときにAgentを一時停止する。
これら3つの責務──コンテキスト、ツール、ライフサイクル──は、あらゆるAgent Harnessの耐力壁だ。 製品によって実装は異なるが、3つのどれかが欠けていれば、Agentは遅かれ早かれ本番で倒れる。
Agent Harnessは何に使われるのか?本番ユースケース
Agent Harnessは、AI Agentを一度きりのチャットではなく現実のワークフローにデプロイしようとする場所ならどこにでも現れる。 最大のカテゴリーは3つ──コーディング、エンタープライズ自動化、垂直ナレッジワークだ。
コーディングでは、最も目立つAgent HarnessはClaude Code内部のものだ。 AnthropicのターミナルベースのコーディングAgentである。Claude Codeは本質的に、 ファイルの読み取り、シェルコマンドの実行、リポジトリのナビゲーション、セッションを跨いだ進捗ログ維持のためのツールを備えた、 注意深く設計されたHarness付きのモデルだ。SWE-benchとTerminalBench-2が、 この分野でコーディングHarnessを比較するために使われる2大ベンチマークである。
エンタープライズ自動化では、支配的なHarnessはSalesforce Agentforceだ。 これはモデルをCRMワークフローを扱うために設計されたランタイムで包む──レコードの更新、 メールの送信、アポイントメントのスケジューリング、ケースの要約、複数の専門Agent間でのリクエストのルーティング。 Agentforceは自らを、エンタープライズAIデプロイメントのためのHarness層として明示的に売り込んでいる。
垂直ナレッジワークでは、特定の高価値タスク向けにHarnessが登場し始めている: 法律調査、臨床推論、金融分析、そして人材検索。 これらの垂直Harnessは汎用Harnessよりスコープがずっと狭いが、ずっと深い── ひとつの仕事の失敗モードに合わせて特別にチューニングされている。 Lessieはこのカテゴリーの一例だ:プロフェッショナルネットワーク、ソーシャルプラットフォーム、 学術データベースにまたがって適切な人物を見つけるという唯一のタスクを中心に構築された垂直Agent Harnessである。
Harness AI DevOps Agent:Salesforceの視点
2026年に定着した特定のフレーズのひとつがharness AI DevOps agentだ—そしてこれはほぼ必ず、AI運用に対するSalesforce Agentforceのアプローチを指している。 このフレーミングでは、Agent Harnessは研究アーティファクトではなく、DevOpsインフラの一部として扱われる。 データベースやKubernetesクラスタをプロビジョニングするのと同じように、プロビジョニングし、 バージョン管理し、監視し、そして料金を支払うものだ。
Salesforceのポジショニングはこうだ──Agent Harnessはモデルとビジネスワークフローの間に欠けている層である。 彼らの主張はこうなる:企業はフロンティアモデルにはたっぷりアクセスできるが、 それらのモデルを、実際の顧客データ、実際の収益、実際のコンプライアンス要件に触れる本番ワークフローへと 信頼性をもってデプロイする手段を持っていない。Harnessこそが、そのデプロイを安全かつ運用的に正気に保つものだ。 権限を強制し、監査のためにすべてのアクションをログし、長いタスクにまたがってコンテキストを管理し、 高リスク操作に対してHuman-in-the-loopの割り込みを提供する。
このDevOpsフレーミングは、SalesforceがHarnessを無料で配布せず料金を取っている理由でもある。 そこで、ほとんどの読者が実は答えを知りたがっている問いに進もう。
誰がAgent Harnessを作っているのか?企業と価格
2026年のAgent Harness市場は、おおむね4つのグループに分かれる:エンタープライズ商用Harness、 開発者向け商用Harness、オープンソースの研究用Harness、そして垂直商用Harness。 ここでは主要プレイヤーと彼らの価格のスナップショットを示す。
Salesforce Agentforceは市場で最も商業的に攻撃的なAgent Harnessだ。 Salesforceはいくつかの価格モデルを提供している。無料のエントリポイントはSalesforce Foundationsで、 テスト用の少量のクレジットがもらえる。その先には主に2つの従量課金モデルがある: 会話あたり$2の会話単位モデル(24時間ウィンドウ内のあらゆるインタラクションとして定義される)、 そして新しいFlex Creditsモデルで、各アクションは20クレジットを消費し、 1アクションあたり約$0.10、クレジットパックは10万クレジットあたり$500で販売される。 予算を読めるように、Salesforceはユーザー単位のアドオンも提供しており、標準エディションでは 1ユーザーあたり月$125から、金融サービスやヘルスケアなどの規制業界では1ユーザーあたり月$150からだ。 大企業はAgentforce 1 Editionを買うこともでき、これは1ユーザーあたり月$550から始まる無制限利用ティアだ。 中堅企業での実際のデプロイは、Agentforce単体で年間$15,000〜$50,000の間に着地することが多い── これにData Cloudのインフラ費用はまだ含まれておらず、それはしばしば必須であり、 Harnessライセンス費用そのものを頻繁に上回る。
AnthropicのClaude Agent SDKは、Claude APIの一部として出荷される開発者向けHarnessだ。 別途のライセンス料はない──モデルトークンの料金を払えばHarnessがついてくる。 SonnetとOpusのティア価格が適用される。同じ基盤の上に構築された消費者向けHarnessであるClaude Codeは、 Claude ProおよびClaude Maxのサブスクリプションに含まれている。 これは開発者を対象にした“汎用”Agent Harnessに最も近いもので、 コーディングAgentエコシステムの多くを動かしている。
LangChainとLangGraphは少し別の位置にある。オープンソースライブラリは無料だが、 ホスティングされたランタイムと可観測性プラットフォーム(LangSmith)はトレース単位で課金され、 無料ティアとチーム向けの月1ユーザー約$39からの有料プランがある。 多くの企業が独自のカスタムAgentの下にLangGraphをHarness層として使っている。
オープンソースの研究用Harnessには、PrincetonのHAL harness (無料、ベンチマーク評価向けに設計)、HKUDS OpenHarness(無料、MITライセンス、検証可能な参照実装として設計)、 EleutherAIのlm-evaluation-harness(無料、Agentデプロイメントではなくモデルベンチマーク向けに設計)が含まれる。 アーキテクチャの内部動作を理解したい、あるいは自分で構築したいときに手を伸ばすのはこれらのHarnessだ。
垂直Harnessは最も新しいカテゴリーだ。Lessieは人材検索のための垂直Agent Harnessであり、 価格は無料から始まり、検索クレジットに応じてスケールする──エンタープライズインフラの価格設定というよりSaaS製品に近い。 他の垂直Harnessも法律調査、臨床意思決定支援、金融分析で登場し始めており、 たいていはアクション単位の従量課金ではなくSaaSサブスクリプションとして価格が設定されている。
この地図で興味深いのは価格差だ。研究用Harnessは無料。Anthropicの開発者向けHarnessは モデルトークンにかかる費用そのもの。Salesforceの商用エンタープライズHarnessは、 中堅企業には月あたり数万ドルの費用がかかり得る。そしてLessieのような垂直HarnessはSaaSツールとほぼ同じ値段だ。 なぜなら、すべてのためのインフラたろうとするのではなく、ひとつの仕事を解いているからだ。 Agent Harnessに単一の“正しい”価格はない—研究アーティファクトを買うのか、 開発者向けビルディングブロックを買うのか、エンタープライズプラットフォームを買うのか、 完成した垂直製品を買うのかに完全に依存する。
実例:LessieのAgent Harnessはどのように適切な人物を見つけるか
定義と価格表だけでは限界がある。Agent Harnessが実際に何をしているかを理解する最も明確な方法は、 ひとつを実クエリで動かすところを見ることだ。そこで、エンドツーエンドでひとつの人材検索タスクを辿り、 Harnessの各コンポーネントが起動するたびにそれを呼び出していこう。
クエリはPeopleSearchBenchデータセットの中でも難しめのひとつだ:
“ベルリンのSeries Bスタートアップで、直近1年以内にLLM製品をリリースしており、 技術的な執筆活動を公開しているシニア機械学習エンジニアを探して。”
素朴なアプローチは、この文全体を検索エンジンに放り込んで最善を祈ることだ。 これが明白な理由で失敗するのは簡単に分かる:インターネット上には“シニアMLエンジニア+Series B+ベルリン+LLM製品出荷経験+公開執筆あり”を インデックス化している単一のソースなど存在しない。情報は5つの異なる場所に散らばっていて、 誰か──あるいは何か—がそれを融合しなければならない。 ここでHarnessは給料分の仕事をする。
ステップ1—クエリ分解(コンテキストエンジニアリング層)。Lessie Harnessは生の文をモデルに渡さない。まずクエリを明示的で検証可能な基準に分解する: 役割 = MLエンジニア、シニアリティ = シニア、会社ステージ = Series B、地域 = ベルリン、 直近のアウトプット = 12ヶ月以内のLLM製品出荷、公開フットプリント = 技術執筆の存在。 各基準は検証述語となり、下流のステップが独立にチェックする。この分解は、 PeopleSearchBenchが検索プラットフォームを採点するのに使うのと同じ方法論であり、“ベルリンのシニア人材”を返すクエリと、適切な6人の人間を返すクエリの違いはここから生まれる。
ステップ2—マルチソース・オーケストレーション(ツール層)。Harnessは分解されたクエリを、各基準が実際に存在するソースへ並列に扇形展開する。 現職と職位にはプロフェッショナルネットワーク。会社ステージにはスタートアップデータベースと資金調達アナウンス。 地域には複数ソース横断の地理的シグナル。LLM製品出荷にはGitHub、製品ローンチページ、チェンジログ言及。 技術執筆の存在感には個人ブログ、Substack、dev.to、カンファレンス登壇リスト。 モデルは生の扇形展開を見ない—Harnessが並列処理を扱い、失敗したソースをリトライし、統合された候補集合を組み立てる。
ステップ3—検証ループ(センサー層)。これは汎用Agentのほとんどが飛ばすステップであり、だからこそ汎用Agentのほとんどが 存在しない人物を幻覚するのだ。オーケストレーション層が浮かび上がらせるすべての候補について、 Harnessはライブウェブ検証パスを走らせる:結果集合に候補が入ることを許される前に、 各基準を新鮮なソースに照らしてチェックする。Harnessが“Anna Schmidt”は実際に ベルリンのSeries B企業に在籍していると独立に検証できなければ、Anna Schmidtは出力に現れない。 これはSalesforceがAgentforceのドキュメントで説明しているガードレール層と全く同じであり、 人材検索特有の失敗モードに特化させたものだ。
ステップ4—プロフィール拡充(ツール層、2回目のパス)。候補が検証を通過すると、Harnessは構造化されたプロフィールデータを引いてくる:現職と在籍期間、 最近の活動、出版物リンク、連絡経路、ソーシャルプレゼンス。これこそがLessieがPeopleSearchBenchの Utility次元で最高スコアを取る理由だ—空欄フィールドで正しい人物を返しても実際には役に立たないし、 汎用Harnessには拡充を別ステップとして行う組み込みの理由がない。
ステップ5—ランキングと提示(モデル層)。最後の最後になって初めて、モデルはモデルが独自に得意なことをやる: 検証され拡充された候補集合を読み、元々のクエリへの総合的なフィットでランキングする。 モデルは判断を下しているが、その判断は騒がしい生のWebダンプに対してではなく、 きれいで、検証済みで、構造化された入力に対して下されている。
このシーケンス全体が自律的に走る。ユーザーの視点では、一文を入力したら、 6人の実在する人物が実在するプロフィールとそれぞれがマッチする実証とともに返ってきただけだ。 Harnessの視点では、その一文はクエリ分解、並列マルチソース取得、数十回の検証呼び出し、 プロフィール拡充、そして最終ランキングパスを引き起こした—すべて調整され、すべてエラーハンドルされ、すべてログされて。
これがAIのAgent Harnessが仕事をしているときの実際の姿だ。モデルはおそらく可視の仕事の20%をやっている。 Harnessは残りの80%をやっていて、その80%こそがデモで動くAgentと、 119個目のクエリでも崩れずに動くAgentの違いである。
2026年以降、Agent Harnessは何を意味するのか?
2026年のHarness論争で最も興味深いのは、それが標準的なAIナラティブを丸ごとひっくり返したことだ。 3年間、AI進歩をめぐるあらゆる会話はモデルサイズ、モデル訓練、モデルベンチマークの会話だった。 暗黙の前提は、次のモデルが現在のモデルの壊れた部分を何であれ解決する、というものだった。
Harness仮説は逆のことを言う:モデルの進歩は本物だが鈍化しており、 Agentの信頼性に残された伸びしろはモデル周辺のインフラに眠っている。 Salesforceは価格ピッチでこの主張を行っている。AnthropicはClaude Agent SDKのドキュメントで行っている。 PrincetonはHAL harnessを研究プラットフォームとして行っている。 2026年3月のMeta-Harness論文は、固定モデル周囲のHarnessを自動で書き換えるだけで 重みに触れずにコーディングベンチマークのスコアを数ポイント引き上げられることを示し、経験的に行った。
この仮説が正しいなら、2つのことが導かれる。第一に、 商業的に価値のあるあらゆるAgent業務は、最終的に自分専用の特化Harnessを育てることになる。 コーディングはすでに持っている。CRM自動化も持っている。人材検索も持っている。 法律調査、臨床推論、金融分析、サプライチェーン調査もそれぞれのものを手に入れる。 Salesforceのような水平プレイヤーは部門横断のエンタープライズ層を支配し、 Lessieのような垂直プレイヤーは、汎用Harnessが決して最適化しない失敗モードを持つ特定の仕事を支配するだろう。第二に、Agent Harnessのベンチマークが、生モデルのベンチマークよりも重要になる。 PeopleSearchBenchは初期の一例にすぎない。これからもっと多く登場する。
モデルはエンジン。Harnessは車体。2026年、エンジンより車体こそが問われ始めている。
垂直Agent Harnessが、それが作られた当の仕事で動くところを見たいなら、lessie.aiでLessieを試してほしい。 そして上の人材検索例の裏にある完全なベンチマーク方法論が欲しいなら、 PeopleSearchBenchのデータセットと論文はlessie.ai/benchmarkでオープンソース公開されている。
Harnessこそが堀(モート)だ。データも—そして値札も—すでにそう語っている。