В 2026 году самая интересная фраза в ИИ — это вовсе не о новой модели. Это формула, к которой за последние недели сошлись Anthropic, Мартин Фаулер и половина исследовательского сообщества:
Agent = Model + Harness.
Если вы недавно заглядывали в AI Twitter, то слово harness мелькало повсюду. Принстон выпустил HAL harness. HKUDS открыли OpenHarness. Свежая статья Meta-Harness показала: автоматическое переписывание harness вокруг замороженной модели поднимает TerminalBench-2 на несколько пунктов — без единого касания весов. Филипп Шмид назвал agent harness «главным инструментом для борьбы с дрейфом модели в длинных задачах».
Но есть штука, которую вслух никто не произносит: почти весь разговор о harness в 2026 году касается кодинг-агентов. Claude Code. SWE-bench. Терминальные задачи. Навигация по репозиторию.
А что с остальным миром? Что насчёт агентной работы, которая не трогает Git-репозиторий?
Мы — Lessie. Мы строим Harness Agent под одну конкретную работу: искать людей. Рекрутеры используют нас, чтобы находить кандидатов. Сейлзы — чтобы находить ЛПР. Венчурные фонды — чтобы находить основателей. Маркетологи — чтобы находить креаторов. Поэтому, когда разговор о harness начал набирать обороты, нам захотелось узнать что-то конкретное: тезис «harness важнее модели» реально работает за пределами кодинга?
Мы построили бенчмарк и провели эксперимент. Результат — PeopleSearchBench, и заголовок звучит так:
На 119 реальных запросах поиска людей Lessie набрал 65,2. Claude Code на Sonnet 4.6 — 45,8. Разрыв в 42% — а единственное, что менялось, это harness.
Разберём, что это означает.
Что такое Harness Agent — простыми словами
Самое короткое определение даёт команда OpenHarness: модель — это агент, код — это harness. Чуть более длинное от Parallel Web: harness — это среда исполнения, обёртывающая модель, перехватывающая её вызовы инструментов, управляющая контекстом и удерживающая её в рамках задачи.
Мартин Фаулер описывает это как две взаимодополняющие половинки.Guides — прямое управление: они формируют поведение агента до того, как он действует (системные промпты, описания инструментов, извлечённый контекст, снимки окружения). Sensors — обратное управление: они наблюдают за тем, что агент сделал, и возвращают коррекции (линтеры, валидаторы, петли верификации). Хороший harness совмещает обе. Плохой — это только прямое управление, и он молча смотрит, как агент на 47-м шаге повторяет ту же ошибку.
Harness Agent — это весь набор: модель + guides + sensors + инструменты + память + логика верификации. То, что превращает голую генерацию токенов в систему, которая реально доводит работу до конца.
Сейчас формируются две разновидности:
- Универсальные harness вроде Claude Agent SDK, OpenHarness и harness внутри Claude Code. Они задуманы как доменно-нейтральные.
- Вертикальные harness, построенные вокруг одной конкретной работы, с guides и sensors, заточенными под её типичные провалы.
Почти все harness-бенчмарки, о которых вы слышали — SWE-bench, TerminalBench-2, USACO, AppWorld — измеряют универсальные harness на задачах кодирования. Насколько мы знаем, PeopleSearchBench — первый бенчмарк, в котором вертикальный Harness Agent выходит напрямую против универсального на не-кодовой задаче.
Почему поиску людей нужен свой harness
Если вы хоть раз просили универсального ИИ-агента: «найди мне сеньорных ML-инженеров в Series B-стартапах в Берлине, которые отгружали LLM-продукты», то типичные провалы вы знаете. Три из них особенно упрямы — и все три это проблемы harness, а не модели:
1. Кросс-источниковое связывание сущностей.Реальный человек существует одновременно в LinkedIn, X, GitHub, в записях с конференций, на корпоративных страницах и в академических базах. У него разные имена, разные фотографии, иногда даже разные написания. Универсальный harness не знает, что«этот профиль в LinkedIn и эта учётка в GitHub — один и тот же человек». Harness для поиска людей обязан решать это в каждом запросе.
2. Петли верификации.Без слоя сенсоров агенты с уверенным видом выдумывают людей. Цитируют«Senior ML Engineer в Stripe Берлин», которого не существует, потому что токены звучат правдоподобно. Это лечится не более умной моделью — Sonnet 4.6 внутри Claude Code делает то же самое. Лечится сенсором: каждый возвращённый человек проверяется по живым веб-источникам, прежде чем он вообще доходит до пользователя.
3. Декомпозиция запросов под человеческие атрибуты.«ML-инженер в Берлине, Series B, отгружавший LLM-продукты» — это не запрос. Это чек-лист: роль + сеньорность + стадия компании + локация + домен + последние результаты. Универсальный harness кидает всю фразу в строку поиска. Вертикальный harness раскладывает её на критерии, параллельно прогоняет по нужным источникам, а потом собирает обратно и ранжирует.
Все три — это ровно то, что Фаулер называет guides и sensors. Просто такие guides и sensors, которые никто не вшивает в универсальный harness для кодинга, потому что кодинг-harness в них не нуждается.
Доказательства: PeopleSearchBench
PeopleSearchBench мы построили, чтобы честно проверить эту гипотезу. Полная методология в статье, но короткая версия такая:
- 119 реальных запросов, собранных из настоящих воркфлоу рекрутеров, сейлзов и исследователей
- 4 языка (английский, португальский, испанский, нидерландский)
- 4 сценария: Рекрутинг (30), B2B-проспектинг (32), Эксперт / детерминированный поиск (28), Инфлюенсер / KOL (29)
- 4 платформы: Lessie (вертикальный Harness Agent), Exa (структурированный поисковый API), Juicebox / PeopleGPT (рекрутинговая платформа с 800M+ профилей), Claude Code (универсальный harness на Sonnet 4.6)
- Три независимых измерения: Relevance (padded nDCG@10), Coverage (доля выполненных задач × полезный выход), Utility (полнота данных профиля)
- Верификация живым веб-поиском, а не «ощущениями» LLM: каждый возвращённый человек сверяется с LinkedIn, корпоративными сайтами и публичными профилями. Агент-верификатор не знает, какая платформа выдала какой результат.
Общие баллы:
- Lessie: Общий 65,2 | Relevance 70,2 | Coverage 69,1 | Utility 56,4
- Exa: Общий 54,6 | Relevance 53,8 | Coverage 58,1 | Utility 53,1
- Claude Code: Общий 45,8 | Relevance 54,3 | Coverage 41,1 | Utility 42,7
- Juicebox: Общий 45,8 | Relevance 44,7 | Coverage 41,8 | Utility 50,9
Lessie — первый по каждому измерению. И это единственная платформа, которая прошла все 119 запросов до конца — 100% completion rate. Остальные три регулярно возвращали ничего на нишевых поисках.
Но самое важное число для дискуссии о harness — это разрыв между Lessie и Claude Code. Оба — ИИ-агенты. Оба умеют вызывать инструменты. Оба умеют искать в вебе. Claude Code работает на одной из самых сильных моделей на планете. И всё равно проиграл по общему баллу 19,4 пункта, а в одном только Coverage — целых 28 пунктов.
Эти 19,4 пункта — не разрыв в моделях. Это разрыв в harness.
Самый большой разрыв в одном сценарии случился в поиске Инфлюенсеров / KOL: Lessie 62,3, Claude Code 43,2. Поиск инфлюенсеров — то место, где универсальный harness ломается громче всего, потому что правильный ответ одновременно живёт в TikTok, Instagram, YouTube и X, и универсальный harness не умеет их сливать. Самый узкий разрыв — в рекрутинге, где три платформы перешагнули отметку 64 — рекрутинг это самая зрелая вертикаль поиска людей, индустрия годами строила инструменты под неё.
Закономерность одна и та же: чем сильнее сценарию нужны слияние источников и верификация, тем сильнее правит harness.
Что устроено внутри harness Lessie
Свои системные промпты мы публиковать не будем. Но архитектура состоит из трёх слоёв, которые чисто ложатся на модель guides-sensors, и их стоит описать — потому что это примерно то, что нужно любому вертикальному Harness Agent:
Слой 1 — Многоисточниковая оркестрация (guides).Когда приходит запрос, harness параллельно маршрутизирует его в профессиональные сети, соцплатформы, академические базы и публичные реестры. У каждого источника своя стратегия извлечения. Модель никогда не видит сырое веерное распределение — она видит единый набор кандидатов.
Слой 2 — Декомпозиция критериев и верификация (sensors).Каждый запрос разбирается на явные критерии — роль, сеньорность, локация, стадия компании, сигналы — и каждый кандидат проверяется по этим критериям через живые веб-запросы ещё до этапа ранжирования. Это та же самая методология, по которой PeopleSearchBench нас оценивает, и это не случайность: мы строили harness вокруг тех самых провалов, которые бенчмарк измеряет.
Слой 3 — Обогащение профиля.Когда человек проходит верификацию, harness идёт за структурированными данными профиля: текущая должность, недавняя активность, каналы связи, присутствие в соцсетях. Поэтому наш балл по Utility лидирует в поле: вернуть правильного человека с пустыми полями бесполезно, а у универсального harness нет никаких причин делать обогащение встроенным шагом.
Модель в середине занимается тем, в чём модели сильны: рассуждает, ранжирует, обобщает, выносит суждения. Harness делает всё остальное. Уберите harness — останется чат-бот. Уберите модель — останется поисковый пайплайн. Соберите вместе — получится вертикальный Harness Agent.
Что это значит для дискуссии о harness
Самое интересное утверждение всей дискуссии о harness в 2026 году звучит так: прогресс моделей на статичных бенчмарках замедляется, но потенциал агентной производительности ещё широко открыт — потому что большая часть оставшегося роста живёт в harness. Meta-Harness показал это на стороне кодинга, автоматически открывая лучшие harness. PeopleSearchBench показывает то же самое с другого конца: вертикальные harness, собранные вручную, могут обходить пограничную модель внутри универсального harness с такими отрывами, которые ни один апгрейд модели уже не закроет.
Если это верно, отсюда следует две вещи.
Во-первых, у каждой коммерчески ценной агентной задачи появится свой Harness Agent.Поиск людей — одна из них. Юридические исследования — вторая. Клиническое рассуждение, финансовый анализ, расследование цепочек поставок, обзор научной литературы — у каждого свои провалы, которые универсальный harness никогда не оптимизирует, потому что он оптимизирует под всё сразу. Вертикальные Harness Agent заберут длинный хвост агентной работы так же, как SaaS забрал длинный хвост софта.
Во-вторых, бенчмарки должны догонять.SWE-bench и TerminalBench-2 прекрасны, но они меряют только один срез качества harness. Если индустрия серьёзно относится к тезису о harness, нужны harness-бенчмарки для каждой значимой вертикали. PeopleSearchBench — наша попытка начать это для поиска людей. Датасет, конвейер оценки и полные результаты — open source.
Модель — это двигатель. Harness — это машина.Мы построили эту машину под одну конкретную дорогу. Если ваша работа связана с поиском людей — кандидатов, клиентов, инвесторов, креаторов, партнёров — попробуйте машину:lessie.ai. А если хотите увидеть, как именно мы обошли кодинг-агента на пограничной модели в задаче, для которой он никогда не был построен — полный бенчмарк и статья здесь.
В 2026 году harness — это и есть ров. Цифры говорят это за нас.