日本語

Harness Agent vs. Claude Code:垂直エージェントが人材検索で19点差をつけた理由

PeopleSearchBench:119件の実クエリ、すべて独立Web検証。

TL;DR

  • 2026年、AI業界の新しい合言葉が決まった。Agent = Model + Harness。だがHarnessをめぐる議論はほぼすべてコーディングAgentの話だ。
  • 私たちはコーディングではない仕事──人を探すこと──でこの仮説を検証するためにPeopleSearchBenchを構築した。119クエリ、4言語、4シナリオ。
  • Lessie(垂直Harness Agent)は65.2点。Sonnet 4.6で動くClaude Codeは45.8点。19.4点差──変えたのはHarnessだけだ。
  • 結論:垂直Harness Agentは、Agent業務のロングテールをまるごと飲み込んでいく。モデルがエンジン、Harnessが車体──私たちは一本の道のためにこの車を造った。
65.2Lessie 総合スコア
45.8Claude Code 総合
+19.4Harness 差(点)
119実世界クエリ数

2026年、AI業界で最も興味深い一文は新しいモデルの話ではない。 Anthropic、Martin Fowler、そしてAI研究コミュニティの半分が、ここ数週間で ひとつの公式に収束した:

Agent = Model + Harness。

最近AI Twitterを覗けば、harnessという単語をいたるところで目にする。 プリンストンはHAL harnessをリリース。HKUDSはOpenHarnessをオープンソース化。 新しいMeta-Harness論文では、モデルの重みに一切手を加えずに Harnessを自動で書き換えるだけで、TerminalBench-2のスコアが数ポイント上昇することが示された。 Philipp Schmidは、Agent Harnessを「長時間タスクにおけるモデルドリフトを解決する第一の道具」だと呼んだ。

しかし誰も声高には言わないことがある。2026年のHarness論争のほぼすべてはコーディングAgentの話だ。Claude Code。SWE-bench。ターミナルタスク。 リポジトリのナビゲーション。

では、それ以外の世界はどうなのか?Gitリポジトリを触らないAgent業務はどうなるのか?

私たちはLessie。たったひとつの仕事のためにHarness Agentを作っている──人を探すことだ。リクルーターは候補者を探すために、 セールスは意思決定者を探すために、VCは創業者を探すために、 マーケターはクリエイターを探すために私たちを使う。 だからHarness論争が盛り上がったとき、私たちは具体的に確かめたくなった。 「Harnessはモデルより重要だ」という仮説は、コーディングの外でも本当に成り立つのか?

そこでベンチマークを構築し、実験を回した。その結果がPeopleSearchBenchであり、見出しの数字はこうなった:

119件の実世界の人材検索クエリで、Lessieは65.2点。 Sonnet 4.6で動くClaude Codeは45.8点。42%の差── 変えたのはHarnessだけだ。

これが何を意味するのか、ひとつずつ紐解いていこう。

Harness Agentとは何か、平易に言うと

最も短い定義はOpenHarnessチームが与えている:モデルがAgentで、コードがHarnessである。 Parallel Webによる少し長めの定義はこうだ:Harnessとはモデルを包み込むランタイムであり、 ツール呼び出しを傍受し、コンテキストを管理し、Agentをタスクに留め続けるものだ。

Martin Fowlerはこれを互いに補い合う2つの半分として捉える。Guidesは前向き制御──Agentが行動する前にその振る舞いを形作る (システムプロンプト、ツール記述、検索済みコンテキスト、環境スナップショット)。Sensorsは後ろ向き制御──Agentが何をしたかを観察し、修正をフィードバックする (linter、バリデータ、検証ループ)。 良いHarnessはこの両方を備える。悪いHarnessは前向き制御だけで、 47ターン目に同じ間違いを繰り返すAgentを黙って見ている。

つまりHarness Agentとは、丸ごとひとつのパッケージだ── モデル+ガイド+センサー+ツール+メモリ+検証ロジック。 生のトークン予測を、現実の仕事を完遂できる何かに変える総体である。

2つの系統が立ち上がりつつある:

  • 汎用Harness──Claude Agent SDK、OpenHarness、そしてClaude Code内蔵のHarnessなど。 これらはドメイン非依存に設計されている。
  • 垂直Harness──ひとつの仕事を中心に作り込まれ、 ガイドもセンサーもその仕事の失敗モードに合わせて調整されている。

あなたが耳にしたであろうHarnessのベンチマークはほぼすべて──SWE-bench、 TerminalBench-2、USACO、AppWorld──汎用Harnessをコーディングタスクで測ったものだ。 私たちの知る限り、PeopleSearchBenchは、垂直Harness Agentと汎用Harnessを コーディング以外の仕事で正面からぶつけた最初のベンチマークである。

なぜ人材検索には専用のHarnessが必要なのか

汎用AI Agentに「ベルリンのSeries Bスタートアップで、LLM製品をリリース経験のある シニアMLエンジニアを探して」と頼んだことがあれば、典型的な失敗パターンは身に染みているはずだ。 そのうち3つは特に頑固で、すべてHarnessの問題であって、 モデルの問題ではない:

1. クロスソースのエンティティ解決。実在の人物はLinkedIn、X、GitHub、カンファレンス登壇、企業ページ、学術データベースに またがって存在する。名前も写真も、時にはスペルさえ違う。 汎用Harnessには「このLinkedInプロフィールとあのGitHubアカウントは同一人物だ」 という組み込み概念が存在しない。人材検索のHarnessは、このことを毎クエリ解かねばならない。

2. 検証ループ。センサー層を持たないAgentは、自信満々で人物を捏造する。 実在しない「Stripeベルリンのシニアエンジニア」を引用することがある── トークンとしてはもっともらしいからだ。 この問題はもっと賢いモデルでは直らない──Claude Code内のSonnet 4.6でも依然として起きる。 直すにはセンサーが要る:返ってきた人物はすべて、ユーザーに届く前に ライブのWebソースで照合されなければならない。

3. 人間属性に対するクエリ分解。「ベルリンのSeries B、LLM製品を出荷したMLエンジニア」はひとつのクエリではない。 チェックリストだ:役割+シニアリティ+会社ステージ+地域+ドメイン+直近のアウトプット。 汎用Harnessはこの一文を丸ごと検索ボックスに投げ込む。 垂直Harnessはこれを基準に分解し、適切なソースに対して並列に走らせ、 集約してランキングする。

この3つはまさに、Fowlerの言うガイドセンサーそのものだ。 ただ、汎用コーディングHarnessには誰も組み込まないガイドとセンサーである── コーディングHarnessには必要ないからだ。

証拠:PeopleSearchBench

PeopleSearchBenchは、この問いを誠実に検証するために構築した。 詳細な方法論は論文に譲るが、要点はこうだ:

  • 119件の実クエリ──実際のリクルーター、セールス、リサーチのワークフローから収集
  • 4言語(英語、ポルトガル語、スペイン語、オランダ語)
  • 4シナリオ:採用(30)、B2Bプロスペクティング(32)、 専門家/確定的検索(28)、インフルエンサー/KOL(29)
  • 4プラットフォーム:Lessie(垂直Harness Agent)、 Exa(構造化検索API)、Juicebox / PeopleGPT(8億+プロフィールを持つ採用プラットフォーム)、 Claude Code(Sonnet 4.6上の汎用Harness)
  • 3つの独立した次元:Relevance(padded nDCG@10)、 Coverage(タスク完了率 × 歩留まり)、Utility(プロフィール情報の充実度)
  • LLMの感覚値ではなく、ライブWeb検索による検証── 返ってきた人物は全員、LinkedIn、企業サイト、公開プロフィールに照らして事実確認される。 検証Agentは、どの結果がどのプラットフォーム由来かを一切知らない。

総合スコアはこうなった:

  • Lessie:総合 65.2 | Relevance 70.2 | Coverage 69.1 | Utility 56.4
  • Exa:総合 54.6 | Relevance 53.8 | Coverage 58.1 | Utility 53.1
  • Claude Code:総合 45.8 | Relevance 54.3 | Coverage 41.1 | Utility 42.7
  • Juicebox:総合 45.8 | Relevance 44.7 | Coverage 41.8 | Utility 50.9

Lessieはすべての次元で1位だ。119件すべてのクエリを完走した唯一のプラットフォームでもある──完走率100%。他の3つはニッチな検索でしばしば何も返せなかった。

だがHarness論争にとって最も重要な数字は、LessieとClaude Codeの差だ。 どちらもAI Agentで、どちらもツールを呼べて、どちらもWebを検索できる。 Claude Codeは地球上で最強のモデルのひとつで動いている。 それでも総合で19.4点負けた。 Coverageの単独差は28点に達する。

この19.4点はモデルの差ではない。Harnessの差だ。

単一シナリオで最大の差がついたのはインフルエンサー/KOL検索。 Lessie 62.3、Claude Code 43.2。 インフルエンサー検索は汎用Harnessが最も派手に崩壊する場所だ。 正解がTikTok、Instagram、YouTube、Xに同時に分散して存在し、 汎用Harnessにはそれらを融合する手段がないからだ。 最小だったのは採用シナリオ──3つのプラットフォームが64点を超えた。 採用は人材検索の中で最も成熟した垂直であり、業界は何年もかけて道具を磨いてきた。

パターンは一貫している:マルチソース融合と検証を強く要求するシナリオほど、Harnessが効いてくる。

LessieのHarnessの中身

システムプロンプトは公開しない。だがアーキテクチャは3層構造で、 ガイドとセンサーのモデルにきれいに対応している。 どの垂直Harness Agentにも必要となる構造をおおむね描いているので、ここで紹介する:

レイヤー1──マルチソース・オーケストレーション(Guides)。クエリが入ると、Harnessはそれをプロフェッショナルネットワーク、 ソーシャルプラットフォーム、学術データベース、公開レジストリに並列でルーティングする。 各ソースには固有の検索戦略がある。モデルは生の扇形展開を見ない── 統合された候補集合だけを見る。

レイヤー2──基準分解と検証(Sensors)。どのクエリも明示的な基準に分解される──役割、シニアリティ、地域、会社ステージ、シグナル── そしてランキングの前に、すべての候補がライブWeb検索でその基準に照らして検証される。 これはまさにPeopleSearchBenchが私たちを採点するのに使う方法論だ。偶然ではない── 私たちは、ベンチマークが測る失敗モードを念頭にHarnessを設計した。

レイヤー3──プロフィール拡充。検証を通った人物について、Harnessは構造化されたプロフィールデータをさらに引いてくる── 現職、最近の活動、連絡経路、ソーシャルでの存在感。 これが私たちのUtilityスコアが業界を引き離している理由だ: 正しい人物を返しても情報がスカスカでは役に立たない。 汎用Harnessは拡充を組み込みのステップとして実装する理由を持たない。

真ん中のモデルはモデルが得意なことをやっている──推論、ランキング、要約、判断。 Harnessはそれ以外のすべてをやっている。 Harnessを取り去ればただのチャットボットだし、モデルを取り去れば検索パイプラインだ。 二つを組み合わせて初めて、垂直Harness Agentが立ち現れる。

このことがHarness論争に意味するもの

2026年のHarness論争で最も興味深い主張は、 モデルの静的ベンチマーク上の進歩は鈍化しているが、Agentのパフォーマンスはまだ大きく開いている、 というものだ。なぜなら、残された伸びしろのほとんどはHarnessに眠っているからである。 Meta-Harnessはコーディングにおいて、より良いHarnessを自動発見することでこれを示した。 PeopleSearchBenchは反対側からそれを示す:手作業で作り込まれた垂直Harnessは、 汎用Harnessの中で動くフロンティアモデルを大差で打ち負かせる── その差は、どんなモデルアップグレードでも埋まりはしない。

これが正しいなら、2つのことが導かれる。

第一に、商業価値のあるAgent業務はすべて、自分専用のHarness Agentを持つことになる。人材検索はそのひとつだ。法律調査もそうだ。臨床推論、金融分析、サプライチェーン調査、 科学文献レビュー──どれも、汎用Harnessが永遠に最適化しない失敗モードを抱えている。 汎用Harnessはすべてを同時に最適化しているからだ。 垂直Harness Agentは、SaaSがソフトウェアのロングテールを飲み込んだのと同じ要領で、 Agent業務のロングテールを飲み込んでいくだろう。

第二に、ベンチマークも追従する必要がある。SWE-benchもTerminalBench-2も素晴らしい仕事だが、Harness品質の一断面しか測っていない。 この業界がHarness仮説を本気で受け止めるなら、価値のあるあらゆる垂直に対して Harnessベンチマークが必要だ。PeopleSearchBenchは、人材検索という垂直で 私たちが踏み出した第一歩である。データセット、評価パイプライン、結果はすべてオープンソースだ。

モデルがエンジンで、Harnessが車体だ。私たちはこの車を一本の道のために造った。 仕事が人を探すことに関わるなら──候補者、顧客、投資家、クリエイター、パートナー── ぜひこの車に乗ってみてほしい:lessie.ai。 そして、もともとそのために作られたわけではない仕事で、 私たちがフロンティアモデルのコーディングAgentをどう打ち負かしたのか── 完全なベンチマークと論文はこちら

2026年、Harnessこそが堀(モート)だ。数字がそう語っている。

Frequently Asked Questions

Harness Agentとは何ですか?

Harness Agentとは、コンテキスト管理、ツール呼び出し、検証ループ、メモリを司るランタイムに包まれたモデルのことです。 Martin Fowlerはこれを2つに分けます:Guides(前向き制御──システムプロンプト、ツール記述、検索コンテキストなど)と Sensors(後ろ向き制御──linter、バリデータ、検証ループなど)。 モデル単体はトークン予測機にすぎませんが、Harnessが加わることで「現実の仕事を完遂できる存在」になります。

2026年にHarnessがモデルより重要だと言われる理由は?

フロンティアモデルの静的ベンチマーク上の伸びは鈍化していますが、Agentパフォーマンスにはまだ広い余地があります。なぜなら残された改善余地のほとんどがHarnessにあるからです。Meta-Harnessの研究は、重みを一切変えずにHarnessを書き換えるだけでTerminalBench-2のスコアが数ポイント上昇することを示しました。PeopleSearchBenchは反対側からこれを裏付けます──垂直Harness AgentがSonnet 4.6で動くClaude Codeを総合で19.4点引き離しました。変わったのはHarnessだけです。

PeopleSearchBenchとは何ですか?どう測定しますか?

PeopleSearchBenchはAI人材検索のためのオープンソースベンチマークです。 119件の実世界クエリを4シナリオ(採用、B2Bプロスペクティング、専門家/確定的検索、インフルエンサー/KOL)と 4言語にわたって評価し、3つの独立した次元で採点します──Relevance(padded nDCG@10)、 Coverage(タスク完了率 × 歩留まり)、Utility(プロフィール情報の充実度)。 返ってきた人物は全員、LinkedIn、企業サイト、公開プロフィールに対する ライブWeb検索で検証されます──しかも検証Agentはどの結果がどのプラットフォーム由来かを知りません。 完全な結果はこちら

なぜLessieは人材検索でClaude Codeに19点差をつけられたのですか?

Claude Codeにはない垂直Harnessの3層が理由です。第一に、プロフェッショナルネットワーク、ソーシャルプラットフォーム、学術データベース、公開レジストリに並列で扇形展開するマルチソース・オーケストレーション。第二に、各クエリを明示的な基準に分解し、ランキング前にライブWeb検索ですべての候補を検証する基準分解と検証層。第三に、検証を通過した全員に対して役職、最新動向、連絡経路など構造化データを補完するプロフィール拡充層。Sonnet 4.6で動くClaude Codeは非常に優れた汎用Harnessですが、エンティティ解決も検証センサーも拡充ステップも組み込まれていません。これらはHarness層の機能であって、モデル層の機能ではありません。

垂直Harness Agentと汎用Harness Agentの違いは?

汎用Harness Agent──Claude Code、Claude Agent SDK、OpenHarnessなど──はドメイン非依存で、主に広範なツール利用とコーディングワークフロー向けに最適化されています。垂直Harness Agentはひとつの仕事を中心に構築され、ガイドとセンサーがその仕事の失敗モードに合わせて調整されています。人材検索には汎用Harnessが永遠に最適化しない頑固な失敗モードがあります(クロスソースのエンティティ解決、人物の幻覚、複数基準のクエリ分解)。なぜなら汎用Harnessはすべてを同時に最適化しているからです。垂直Harness Agentは、SaaSがソフトウェアのロングテールを飲み込んだのと同じ要領で、Agent業務のロングテールを飲み込んでいくでしょう。

人材検索のために設計されたHarness Agentを試す。

100以上のソースを横断して候補者・顧客・投資家・クリエイターを発見。検証は最初から組み込み済み。Lessieを無料で試す。

Start for free →

Related Articles