Harness Agent против Claude Code: почему вертикальный агент опередил Claude Code в поиске людей на 19 пунктов

65,2Общий балл Lessie

45,8Общий балл Claude Code

+19,4Разрыв по harness (баллов)

119Реальных запросов

В 2026 году самая интересная фраза в ИИ — это вовсе не о новой модели. Это формула, к которой за последние недели сошлись Anthropic, Мартин Фаулер и половина исследовательского сообщества:

Agent = Model + Harness.

Если вы недавно заглядывали в AI Twitter, то слово harness мелькало повсюду. Принстон выпустил HAL harness. HKUDS открыли OpenHarness. Свежая статья Meta-Harness показала: автоматическое переписывание harness вокруг замороженной модели поднимает TerminalBench-2 на несколько пунктов — без единого касания весов. Филипп Шмид назвал agent harness «главным инструментом для борьбы с дрейфом модели в длинных задачах».

Но есть штука, которую вслух никто не произносит: почти весь разговор о harness в 2026 году касается кодинг-агентов. Claude Code. SWE-bench. Терминальные задачи. Навигация по репозиторию.

А что с остальным миром? Что насчёт агентной работы, которая не трогает Git-репозиторий?

Мы — Lessie. Мы строим Harness Agent под одну конкретную работу: искать людей. Рекрутеры используют нас, чтобы находить кандидатов. Сейлзы — чтобы находить ЛПР. Венчурные фонды — чтобы находить основателей. Маркетологи — чтобы находить креаторов. Поэтому, когда разговор о harness начал набирать обороты, нам захотелось узнать что-то конкретное: тезис «harness важнее модели» реально работает за пределами кодинга?

Мы построили бенчмарк и провели эксперимент. Результат — PeopleSearchBench, и заголовок звучит так:

На 119 реальных запросах поиска людей Lessie набрал 65,2. Claude Code на Sonnet 4.6 — 45,8. Разрыв в 42% — а единственное, что менялось, это harness.

Разберём, что это означает.

Что такое Harness Agent — простыми словами

Самое короткое определение даёт команда OpenHarness: модель — это агент, код — это harness. Чуть более длинное от Parallel Web: harness — это среда исполнения, обёртывающая модель, перехватывающая её вызовы инструментов, управляющая контекстом и удерживающая её в рамках задачи.

Мартин Фаулер описывает это как две взаимодополняющие половинки.Guides — прямое управление: они формируют поведение агента до того, как он действует (системные промпты, описания инструментов, извлечённый контекст, снимки окружения). Sensors — обратное управление: они наблюдают за тем, что агент сделал, и возвращают коррекции (линтеры, валидаторы, петли верификации). Хороший harness совмещает обе. Плохой — это только прямое управление, и он молча смотрит, как агент на 47-м шаге повторяет ту же ошибку.

Harness Agent — это весь набор: модель + guides + sensors + инструменты + память + логика верификации. То, что превращает голую генерацию токенов в систему, которая реально доводит работу до конца.

Сейчас формируются две разновидности:

Универсальные harness вроде Claude Agent SDK, OpenHarness и harness внутри Claude Code. Они задуманы как доменно-нейтральные.
Вертикальные harness, построенные вокруг одной конкретной работы, с guides и sensors, заточенными под её типичные провалы.

Почти все harness-бенчмарки, о которых вы слышали — SWE-bench, TerminalBench-2, USACO, AppWorld — измеряют универсальные harness на задачах кодирования. Насколько мы знаем, PeopleSearchBench — первый бенчмарк, в котором вертикальный Harness Agent выходит напрямую против универсального на не-кодовой задаче.

Почему поиску людей нужен свой harness

Если вы хоть раз просили универсального ИИ-агента: «найди мне сеньорных ML-инженеров в Series B-стартапах в Берлине, которые отгружали LLM-продукты», то типичные провалы вы знаете. Три из них особенно упрямы — и все три это проблемы harness, а не модели:

1. Кросс-источниковое связывание сущностей.Реальный человек существует одновременно в LinkedIn, X, GitHub, в записях с конференций, на корпоративных страницах и в академических базах. У него разные имена, разные фотографии, иногда даже разные написания. Универсальный harness не знает, что«этот профиль в LinkedIn и эта учётка в GitHub — один и тот же человек». Harness для поиска людей обязан решать это в каждом запросе.

2. Петли верификации.Без слоя сенсоров агенты с уверенным видом выдумывают людей. Цитируют«Senior ML Engineer в Stripe Берлин», которого не существует, потому что токены звучат правдоподобно. Это лечится не более умной моделью — Sonnet 4.6 внутри Claude Code делает то же самое. Лечится сенсором: каждый возвращённый человек проверяется по живым веб-источникам, прежде чем он вообще доходит до пользователя.

3. Декомпозиция запросов под человеческие атрибуты.«ML-инженер в Берлине, Series B, отгружавший LLM-продукты» — это не запрос. Это чек-лист: роль + сеньорность + стадия компании + локация + домен + последние результаты. Универсальный harness кидает всю фразу в строку поиска. Вертикальный harness раскладывает её на критерии, параллельно прогоняет по нужным источникам, а потом собирает обратно и ранжирует.

Все три — это ровно то, что Фаулер называет guides и sensors. Просто такие guides и sensors, которые никто не вшивает в универсальный harness для кодинга, потому что кодинг-harness в них не нуждается.

Доказательства: PeopleSearchBench

PeopleSearchBench мы построили, чтобы честно проверить эту гипотезу. Полная методология в статье, но короткая версия такая:

119 реальных запросов, собранных из настоящих воркфлоу рекрутеров, сейлзов и исследователей
4 языка (английский, португальский, испанский, нидерландский)
4 сценария: Рекрутинг (30), B2B-проспектинг (32), Эксперт / детерминированный поиск (28), Инфлюенсер / KOL (29)
4 платформы: Lessie (вертикальный Harness Agent), Exa (структурированный поисковый API), Juicebox / PeopleGPT (рекрутинговая платформа с 800M+ профилей), Claude Code (универсальный harness на Sonnet 4.6)
Три независимых измерения: Relevance (padded nDCG@10), Coverage (доля выполненных задач × полезный выход), Utility (полнота данных профиля)
Верификация живым веб-поиском, а не «ощущениями» LLM: каждый возвращённый человек сверяется с LinkedIn, корпоративными сайтами и публичными профилями. Агент-верификатор не знает, какая платформа выдала какой результат.

Общие баллы:

Lessie: Общий 65,2 | Relevance 70,2 | Coverage 69,1 | Utility 56,4
Exa: Общий 54,6 | Relevance 53,8 | Coverage 58,1 | Utility 53,1
Claude Code: Общий 45,8 | Relevance 54,3 | Coverage 41,1 | Utility 42,7
Juicebox: Общий 45,8 | Relevance 44,7 | Coverage 41,8 | Utility 50,9

Lessie — первый по каждому измерению. И это единственная платформа, которая прошла все 119 запросов до конца — 100% completion rate. Остальные три регулярно возвращали ничего на нишевых поисках.

Но самое важное число для дискуссии о harness — это разрыв между Lessie и Claude Code. Оба — ИИ-агенты. Оба умеют вызывать инструменты. Оба умеют искать в вебе. Claude Code работает на одной из самых сильных моделей на планете. И всё равно проиграл по общему баллу 19,4 пункта, а в одном только Coverage — целых 28 пунктов.

Эти 19,4 пункта — не разрыв в моделях. Это разрыв в harness.

Самый большой разрыв в одном сценарии случился в поиске Инфлюенсеров / KOL: Lessie 62,3, Claude Code 43,2. Поиск инфлюенсеров — то место, где универсальный harness ломается громче всего, потому что правильный ответ одновременно живёт в TikTok, Instagram, YouTube и X, и универсальный harness не умеет их сливать. Самый узкий разрыв — в рекрутинге, где три платформы перешагнули отметку 64 — рекрутинг это самая зрелая вертикаль поиска людей, индустрия годами строила инструменты под неё.

Закономерность одна и та же: чем сильнее сценарию нужны слияние источников и верификация, тем сильнее правит harness.

Что устроено внутри harness Lessie

Свои системные промпты мы публиковать не будем. Но архитектура состоит из трёх слоёв, которые чисто ложатся на модель guides-sensors, и их стоит описать — потому что это примерно то, что нужно любому вертикальному Harness Agent:

Слой 1 — Многоисточниковая оркестрация (guides).Когда приходит запрос, harness параллельно маршрутизирует его в профессиональные сети, соцплатформы, академические базы и публичные реестры. У каждого источника своя стратегия извлечения. Модель никогда не видит сырое веерное распределение — она видит единый набор кандидатов.

Слой 2 — Декомпозиция критериев и верификация (sensors).Каждый запрос разбирается на явные критерии — роль, сеньорность, локация, стадия компании, сигналы — и каждый кандидат проверяется по этим критериям через живые веб-запросы ещё до этапа ранжирования. Это та же самая методология, по которой PeopleSearchBench нас оценивает, и это не случайность: мы строили harness вокруг тех самых провалов, которые бенчмарк измеряет.

Слой 3 — Обогащение профиля.Когда человек проходит верификацию, harness идёт за структурированными данными профиля: текущая должность, недавняя активность, каналы связи, присутствие в соцсетях. Поэтому наш балл по Utility лидирует в поле: вернуть правильного человека с пустыми полями бесполезно, а у универсального harness нет никаких причин делать обогащение встроенным шагом.

Модель в середине занимается тем, в чём модели сильны: рассуждает, ранжирует, обобщает, выносит суждения. Harness делает всё остальное. Уберите harness — останется чат-бот. Уберите модель — останется поисковый пайплайн. Соберите вместе — получится вертикальный Harness Agent.

Что это значит для дискуссии о harness

Самое интересное утверждение всей дискуссии о harness в 2026 году звучит так: прогресс моделей на статичных бенчмарках замедляется, но потенциал агентной производительности ещё широко открыт — потому что большая часть оставшегося роста живёт в harness. Meta-Harness показал это на стороне кодинга, автоматически открывая лучшие harness. PeopleSearchBench показывает то же самое с другого конца: вертикальные harness, собранные вручную, могут обходить пограничную модель внутри универсального harness с такими отрывами, которые ни один апгрейд модели уже не закроет.

Если это верно, отсюда следует две вещи.

Во-первых, у каждой коммерчески ценной агентной задачи появится свой Harness Agent.Поиск людей — одна из них. Юридические исследования — вторая. Клиническое рассуждение, финансовый анализ, расследование цепочек поставок, обзор научной литературы — у каждого свои провалы, которые универсальный harness никогда не оптимизирует, потому что он оптимизирует под всё сразу. Вертикальные Harness Agent заберут длинный хвост агентной работы так же, как SaaS забрал длинный хвост софта.

Во-вторых, бенчмарки должны догонять.SWE-bench и TerminalBench-2 прекрасны, но они меряют только один срез качества harness. Если индустрия серьёзно относится к тезису о harness, нужны harness-бенчмарки для каждой значимой вертикали. PeopleSearchBench — наша попытка начать это для поиска людей. Датасет, конвейер оценки и полные результаты — open source.

Модель — это двигатель. Harness — это машина.Мы построили эту машину под одну конкретную дорогу. Если ваша работа связана с поиском людей — кандидатов, клиентов, инвесторов, креаторов, партнёров — попробуйте машину:lessie.ai. А если хотите увидеть, как именно мы обошли кодинг-агента на пограничной модели в задаче, для которой он никогда не был построен — полный бенчмарк и статья здесь.

В 2026 году harness — это и есть ров. Цифры говорят это за нас.

FAQ

Что такое Harness Agent?

Harness Agent — это модель, обёрнутая в среду исполнения, которая управляет её контекстом, вызовами инструментов, петлями верификации и памятью. Мартин Фаулер делит harness на две половинки: guides (прямое управление: системные промпты, описания инструментов, извлечённый контекст) и sensors (обратное управление: линтеры, валидаторы, петли верификации). Сама по себе модель — это просто предсказатель токенов; именно harness превращает её в нечто, что доводит реальную работу до конца.

Почему в 2026 году harness важнее модели?

Прирост пограничных моделей на статичных бенчмарках замедляется, но агентная производительность всё ещё имеет огромный запас, потому что бóльшая часть оставшегося роста живёт в harness. Исследование Meta-Harness показало, что автоматическое переписывание harness при замороженной модели поднимает TerminalBench-2 на несколько пунктов — без правки весов. PeopleSearchBench показывает ту же закономерность с другой стороны: вертикальный Harness Agent опередил Claude Code на Sonnet 4.6 на 19,4 пункта по общему баллу, и единственное, что менялось, это harness.

Что такое PeopleSearchBench и как он работает?

PeopleSearchBench — это open-source бенчмарк для поиска людей с помощью ИИ. Он оценивает 119 реальных запросов на 4 сценариях (рекрутинг, B2B-проспектинг, эксперт / детерминированный поиск, инфлюенсер / KOL) и 4 языках по трём независимым измерениям: Relevance (padded nDCG@10), Coverage (доля выполненных задач × полезный выход) и Utility (полнота данных профиля). Каждый возвращённый человек проверяется живым веб-поиском по LinkedIn, корпоративным сайтам и публичным профилям, и агент-верификатор не знает, какая платформа выдала каждый результат. Полные результаты — здесь.

Как Lessie обошёл Claude Code в поиске людей на 19 пунктов?

За счёт трёх вертикальных слоёв harness, которых нет у Claude Code: первый — многоисточниковая оркестрация, параллельно раскидывающая запрос по профессиональным сетям, соцплатформам, академическим базам и публичным реестрам; второй — декомпозиция критериев и верификация, разбивающая каждый запрос на явные проверки и валидирующая каждого кандидата по живым веб-источникам до этапа ранжирования; третий — обогащение профиля, подтягивающее структурированные данные (роль, недавняя активность, каналы связи) для каждого верифицированного человека. Claude Code на Sonnet 4.6 — отличный универсальный harness, но в нём нет встроенного связывания сущностей, нет сенсора верификации и нет шага обогащения. Это функции harness, а не модели.

Чем вертикальный Harness Agent отличается от универсального?

Универсальный Harness Agent — Claude Code, Claude Agent SDK, OpenHarness — доменно-нейтрален и заточен в первую очередь под широкое использование инструментов и кодинг-воркфлоу. Вертикальный Harness Agent построен вокруг одной конкретной задачи, с guides и sensors, заточенными под её провалы. У поиска людей есть упрямые провалы, которые универсальный harness никогда не будет оптимизировать (кросс-источниковое связывание сущностей, галлюцинация людей, многокритериальная декомпозиция запросов), потому что он оптимизирует под всё сразу. Вертикальные Harness Agent заберут длинный хвост агентной работы так же, как SaaS забрал длинный хвост софта.