Если вы хоть немного провели времени в AI Twitter в 2026 году, вы видели одно и то же слово повсюду: harness. Его использует Anthropic. Salesforce построил вокруг него целую продуктовую страницу. Princeton выпустил исследовательский проект под названием HAL harness. Мартин Фаулер написал длинное эссе про harness engineering для кодинг-агентов. И формула, которую все повторяют, одна и та же:
Agent = Model + Harness.
Так что же такое agent harness, кто его строит, сколько он стоит и как он на самом деле выглядит в продакшене? Это руководство отвечает на все эти вопросы, а затем проходит через реальный пример того, как harness агента поиска людей Lessie находит нужного человека по расплывчатому многокритериальному запросу.
Что такое Agent Harness?
Agent harness — это программная инфраструктура, которая обёртывает ИИ-модель и управляет всем, чем сама модель управлять не может — инструментами, памятью, контекстом, проверками безопасности, восстановлением после ошибок и всем жизненным циклом задачи. Модель — это мозг. Harness — это тело, нервная система и окружение, в котором работает мозг.
Самое короткое определение даёт проект OpenHarness от HKUDS: модель — это агент, а код — это harness. Чуть более длинное из инженерных постов самой Anthropic: harness — это всё в агенте, кроме самой модели.
Почему это различие важно? Потому что в 2025 году ИИ-индустрия исходила из того, что более сильные модели решат любую проблему. К 2026 году стало ясно, что даже самая сильная пограничная модель — запущенная без каких-либо обвязок вокруг — не справляется с длинными, многошаговыми, реальными задачами. Она галлюцинирует вызовы инструментов. Теряет исходную цель после пятидесяти шагов. Повторяет одну и ту же ошибку на 47-м шаге, потому что ничто не сообщило ей, что ошибка произошла. Лекарство от этих провалов — не более крупная модель. Лекарство — это agent harness.
Что такое AI Agent Harness простыми словами?
Если «agent harness» всё ещё звучит абстрактно, вот полезная аналогия. Представьте ИИ-модель как блестящего новичка в первый рабочий день. Он умный, начитанный и способен рассуждать почти о чём угодно. Но он не знает, где туалет, у него нет доступа к инструментам компании, он не помнит, что происходило на вчерашнем митинге, и если он что-то сломает, никто не поймает это до того, как оно дойдёт до клиента.
AI agent harness — это офис вокруг этого новичка. Это бейдж, впускающий его в нужные комнаты, ноутбук с нужным софтом, календарь, напоминающий, что он должен делать сегодня, менеджер, проверяющий его работу до отправки, и плейбук, говорящий, что делать, когда что-то ломается.
Поэтому, когда кто-то спрашивает «что такое AI agent harness», самый чистый ответ такой: AI agent harness — это операционная инфраструктура, которая превращает голую языковую модель в надёжного работника, способного заканчивать реальные задачи без постоянного надзора. Без harness у вас чат-бот. С harness у вас агент.
Что такое Agent Harness в ИИ? Три вещи, которые он на самом деле делает
Если посмотреть, как устроен любой серьёзный agent harness в ИИ — Claude Agent SDK от Anthropic, harness Agentforce от Salesforce, HAL harness из Princeton, open-source проект OpenHarness и вертикальные harness вроде Lessie — все они делают примерно три вещи. Если вы понимаете эти три обязанности, вы понимаете 90% того, что делает agent harness.
Первая обязанность — context engineering. У модели конечное контекстное окно, и в любой длинной задаче это окно быстро заполняется логами, выводами инструментов, промежуточными рассуждениями и предыдущими шагами. Harness решает, что остаётся, что суммируется, что извлекается заново, а что выбрасывается. Без context engineering агенты страдают от того, что исследователи называют context rot — исходная цель хоронится под шумом, и агент начинает сбиваться с задачи.
Вторая обязанность — оркестрация инструментов с ограничителями. Агенту нужны инструменты — поиск, базы данных, API, файловые системы, другие агенты— но сырые выходы модели недетерминированы и регулярно выдают кривые вызовы инструментов, неправильные параметры или выдуманные имена функций, которых не существует. Harness сидит между моделью и инструментами, валидирует каждый вызов до его запуска, помещает опасные операции в песочницу и возвращает модели чистые структурированные результаты. Это разница между агентом, который работает один раз в демо, и агентом, который работает десять тысяч раз в продакшене.
Третья обязанность — управление жизненным циклом и состоянием.Длительные задачи агента могут занимать минуты, часы или дни. Модели по умолчанию stateless — каждый вызов начинается с нуля. Harness даёт агенту устойчивость: сохраняет чекпоинты, восстанавливается после падений, повторяет неудавшиеся шаги и позволяет задаче пережить разные сессии. Он также обрабатывает прерывания human-in-the-loop, приостанавливая агента, когда важное решение требует одобрения человека перед продолжением.
Эти три обязанности — контекст, инструменты, жизненный цикл — несущие стены любого agent harness. Разные продукты реализуют их по-разному, но если одной из трёх не хватает, агент рано или поздно сломается в продакшене.
Для чего используется Agent Harness? Реальные продакшен-кейсы
Agent harness появляется везде, где кто-то пытается развернуть ИИ-агента в реальном воркфлоу, а не в одноразовом чате. Три самых больших категории — это кодинг, корпоративная автоматизация и вертикальная интеллектуальная работа.
В кодинге самый заметный agent harness — это тот, что внутри Claude Code, терминального кодинг-агента Anthropic. Claude Code — это по сути модель плюс тщательно спроектированный harness, дающий ей инструменты для чтения файлов, запуска shell-команд, навигации по репозиториям и ведения лога прогресса между сессиями. SWE-bench и TerminalBench-2 — два основных бенчмарка, по которым индустрия сравнивает кодинг-harness.
В корпоративной автоматизации доминирующий harness — это Salesforce Agentforce, оборачивающий модель в среду исполнения, спроектированную под CRM-воркфлоу— обновление записей, отправку писем, планирование встреч, суммаризацию кейсов и маршрутизацию запросов между несколькими специализированными агентами. Agentforce прямо позиционирует себя как harness-слой для корпоративного развёртывания ИИ.
В вертикальной интеллектуальной работе harness начинают появляться для конкретных высокоценных задач: юридические исследования, клиническое рассуждение, финансовый анализ и поиск людей. Такие вертикальные harness обычно гораздо уже по охвату, чем общие harness, но глубже — они настроены именно под провалы одной работы. Lessie — пример этой категории: вертикальный agent harness, построенный вокруг одной задачи поиска нужного человека через профессиональные сети, социальные платформы и академические базы данных.
Harness AI DevOps Agent: Угол Salesforce
Одна конкретная фраза, которая набрала популярность в 2026 году, — это harness AI DevOps agent — и она почти всегда отсылает к подходу Salesforce Agentforce к операциям ИИ. В этой рамке agent harness рассматривается как часть DevOps-инфраструктуры, а не как исследовательский артефакт. Это то, что вы провижените, версионируете, мониторите и за что платите, так же, как за базу данных или кластер Kubernetes.
Позиционирование Salesforce такое: agent harness — это недостающий слой между моделью и бизнес-воркфлоу. Их аргумент звучит так: у компаний есть доступ к множеству пограничных моделей, но нет надёжного способа развернуть эти модели в продакшен-воркфлоу, которые трогают реальные клиентские данные, реальную выручку и реальные требования соответствия. Harness — это то, что делает такое развёртывание безопасным и операционно вменяемым. Он обеспечивает права доступа, логирует каждое действие для аудита, управляет контекстом в длинных задачах и предоставляет прерывания human-in-the-loop для высокоставочных операций.
Эта DevOps-рамка также объясняет, почему Salesforce берёт деньги за harness, а не раздаёт его. Что подводит нас к вопросу, на который большинство читателей на самом деле хотят получить ответ.
Кто строит Agent Harness? Компании и цены
Рынок agent harness в 2026 году делится примерно на четыре группы: корпоративные коммерческие harness, коммерческие harness для разработчиков, open-source исследовательские harness и вертикальные коммерческие harness. Вот снимок основных игроков и того, сколько они берут.
Salesforce Agentforce — это самый коммерчески агрессивный agent harness на рынке. Salesforce предлагает несколько ценовых моделей. Бесплатная точка входа — Salesforce Foundations, которая даёт небольшой запас кредитов для тестирования. Кроме неё есть две основные модели потребления: per-conversation за $2 за разговор (определённый как любое взаимодействие в течение 24-часового окна) и более новая модель Flex Credits, где каждое действие потребляет 20 кредитов примерно по $0,10 за действие, а пакеты кредитов продаются по $500 за 100 000 кредитов. Для предсказуемых бюджетов Salesforce также предлагает per-user add-ons, начиная с $125 за пользователя в месяц для стандартных редакций и $150 за пользователя в месяц для регулируемых отраслей вроде финансов и здравоохранения. Крупные предприятия могут купить Agentforce 1 Edition, безлимитный уровень, начинающийся от $550 за пользователя в месяц. Реальные развёртывания в средних компаниях обычно укладываются где-то между $15 000 и $50 000 в год на одном Agentforce, не считая расходов на инфраструктуру Data Cloud, которые часто обязательны и нередко превышают сам лицензионный сбор за harness.
Claude Agent SDK от Anthropic — это harness для разработчиков, который поставляется как часть Claude API. Отдельной лицензионной платы нет — вы платите за токены модели, а harness прилагается. Действует тарификация Sonnet и Opus. Claude Code, потребительский harness, построенный на том же фундаменте, включён в подписки Claude Pro и Claude Max. Это самое близкое к «универсальному» agent harness, нацеленному на разработчиков, и он питает значительную часть экосистемы кодинг-агентов.
LangChain и LangGraph занимают немного другую позицию. Open-source библиотеки бесплатны, но хостинг и платформа наблюдаемости (LangSmith) тарифицируются по трейсам, с бесплатным уровнем и платными тарифами от $39 за пользователя в месяц для команд. Многие компании используют LangGraph как harness-слой под собственными кастомными агентами.
Open-source исследовательские harness включают HAL harness от Princeton (бесплатный, создан для оценки бенчмарков), OpenHarness от HKUDS (бесплатный, лицензия MIT, задуман как инспектируемая референсная реализация) и lm-evaluation-harness от EleutherAI (бесплатный, создан для бенчмаркинга моделей, а не для развёртывания агентов). Это harness, к которым вы обращаетесь, если хотите понять, как устроена архитектура под капотом, или если хотите построить свой собственный.
Вертикальные harness — самая новая категория. Lessie — это вертикальный agent harness для поиска людей с ценами, начинающимися бесплатно и масштабирующимися по поисковым кредитам — ближе к SaaS-продукту, чем к ценам на корпоративную инфраструктуру. Другие вертикальные harness начинают появляться в юридических исследованиях, поддержке клинических решений и финансовом анализе, обычно с ценами в виде SaaS-подписок, а не потребления за действие.
Интересная штука в этом ландшафте — разброс цен. Исследовательский harness не стоит ничего. Harness для разработчиков от Anthropic стоит ровно столько, сколько стоят ваши токены модели. Коммерческий корпоративный harness от Salesforce может обходиться средней компании в десятки тысяч долларов в месяц. А вертикальный harness вроде Lessie стоит примерно как SaaS-инструмент, потому что он решает одну задачу, а не пытается быть инфраструктурой для всего. Единой «правильной» цены за agent harness не существует — всё полностью зависит от того, платите ли вы за исследовательский артефакт, за строительный блок для разработчиков, за корпоративную платформу или за готовый вертикальный продукт.
Реальный пример: как harness агента Lessie находит нужного человека
Определения и ценовые таблицы уводят только так далеко. Самый ясный способ понять, что на самом деле делает agent harness, — это посмотреть, как он работает на реальном запросе. Вот пошаговый разбор одной задачи поиска людей от начала до конца, с отметкой каждого компонента harness в момент его активации.
Запрос — один из более трудных в датасете PeopleSearchBench:
«Найди мне сеньорных machine learning инженеров в Series B-стартапах в Берлине, которые за последний год отгружали LLM-продукты и имеют публичное техническое письменное присутствие.»
Наивный подход затолкал бы всё это предложение в поисковик и надеялся на лучшее. Это проваливается по очевидным причинам: в интернете нет ни одного источника, который индексирует «senior ML engineer + Series B + Berlin + отгружал LLM-продукт + пишет публично». Информация живёт в пяти разных местах, и кто-то — или что-то — должен их сплавить. Именно здесь harness отрабатывает свои деньги.
Шаг 1 — Декомпозиция запроса (слой context engineering).Harness Lessie не передаёт модели сырое предложение. Сначала он разбивает запрос на явные, проверяемые критерии: роль = ML инженер, сеньорность = senior, стадия компании = Series B, локация = Берлин, недавний выход = отгрузил LLM-продукт за последние 12 месяцев, публичный след = есть техническое письменное присутствие. Каждый критерий становится верификационным предикатом, который последующие шаги проверят независимо. Эта декомпозиция — та же методология, которой PeopleSearchBench оценивает поисковые платформы, и это разница между запросом, возвращающим «сеньорных людей в Берлине», и запросом, возвращающим шесть нужных людей.
Шаг 2 — Многоисточниковая оркестрация (слой инструментов).Harness параллельно веером распределяет декомпозированный запрос по источникам, где на самом деле живёт каждый критерий. Профессиональные сети для текущей роли и сеньорности. Базы стартапов и анонсы раундов для стадии компании. Географические сигналы из нескольких источников для локации. GitHub, страницы запуска продуктов и упоминания в чейнджлогах для отгруженных LLM-продуктов. Личные блоги, Substack, dev.to и списки конференционных докладов для публичного письменного присутствия. Модель никогда не видит сырое веерное распределение — harness обрабатывает параллелизм, повторяет запросы к провалившимся источникам и собирает унифицированный набор кандидатов.
Шаг 3 — Петля верификации (слой сенсоров). Это шаг, который пропускают большинство общих агентов, и именно поэтому большинство общих агентов галлюцинируют несуществующих людей. Для каждого кандидата, который поднимает оркестрационный слой, harness запускает проход живой веб-верификации: проверяет каждый критерий по свежим источникам, прежде чем кандидат попадёт в результирующий набор. Если harness не может независимо проверить, что «Anna Schmidt» действительно работает в Series B-компании в Берлине, Anna Schmidt не появляется в выводе. Это ровно тот слой ограничителей, который Salesforce описывает в документации Agentforce, только специализированный под конкретные провалы поиска людей.
Шаг 4 — Обогащение профиля (слой инструментов, второй проход).Как только кандидат проходит верификацию, harness подтягивает структурированные данные профиля: текущую роль и стаж, недавнюю активность, ссылки на публикации, каналы связи, присутствие в соцсетях. Именно поэтому Lessie набирает наивысший балл по измерению Utility в PeopleSearchBench — вернуть нужного человека с пустыми полями на самом деле бесполезно, а у общего harness нет встроенной причины делать обогащение отдельным шагом.
Шаг 5 — Ранжирование и презентация (слой модели).Только в самом конце модель делает то, в чём модели уникально хороши: читает верифицированный, обогащённый набор кандидатов и ранжирует его по общему соответствию исходному запросу. Модель выносит суждение, но это суждение она выносит на основе чистого, проверенного, структурированного ввода — а не шумной сырой веб-свалки.
Вся последовательность выполняется автономно. С точки зрения пользователя, он ввёл одно предложение и получил обратно шесть реальных людей с реальными профилями и реальными доказательствами того, почему каждый из них подходит. С точки зрения harness это одно предложение запустило декомпозицию запроса, параллельный многоисточниковый поиск, десятки верификационных вызовов, обогащение профилей и финальный проход ранжирования —всё скоординировано, все ошибки обработаны, всё залогировано.
Вот как на самом деле выглядит agent harness в ИИ, когда он делает свою работу. Модель делает, может быть, 20% видимой работы. Harness делает остальные 80%, и эти 80% — разница между агентом, который работает в демо, и агентом, который работает на 119-м запросе подряд без сбоев.
Что Agent Harness будет означать в 2026 году и дальше?
Самое интересное в дискуссии о harness в 2026 году — это то, что она перевернула стандартный ИИ-нарратив с ног на голову. Три года любой разговор о прогрессе ИИ был разговором о размере модели, обучении модели, бенчмарках моделей. Негласное допущение было в том, что следующая модель решит всё, что сломано в текущей.
Тезис о harness говорит обратное: прогресс моделей реален, но замедляется, а оставшиеся приросты в надёжности агентов живут в инфраструктуре вокруг модели. Salesforce делает этот тезис в своём ценовом питче. Anthropic делает его в документации Claude Agent SDK. Princeton делает его с HAL harness как исследовательской платформой. Статья Meta-Harness от марта 2026 года сделала его эмпирически, показав, что автоматическое переписывание harness вокруг замороженной модели может поднять баллы кодинг-бенчмарков на несколько пунктов без касания весов.
Если тезис верен, отсюда следуют две вещи. Во-первых, у каждой коммерчески ценной агентной задачи со временем появится свой специализированный harness. У кодинга он уже есть. У автоматизации CRM есть. У поиска людей есть. Юридические исследования, клиническое рассуждение, финансовый анализ и расследование цепочек поставок получат свои. Горизонтальные игроки вроде Salesforce будут доминировать в кросс-функциональном корпоративном слое, а вертикальные игроки вроде Lessie будут доминировать в конкретных задачах, у которых есть провалы, которые общий harness никогда не будет оптимизировать. Во-вторых, бенчмарки для agent harness станут важнее бенчмарков для сырых моделей. PeopleSearchBench — один из ранних примеров. Их будет намного больше.
Модель — это двигатель. Harness — это машина. В 2026 году машины начинают значить больше, чем двигатели.
Если вы хотите увидеть вертикальный agent harness в действии на той работе, для которой он был построен, попробуйте Lessie на lessie.ai. А если вам нужна полная методология бенчмарка, стоящая за приведённым выше примером поиска людей, датасет и статья PeopleSearchBench открыты по адресу lessie.ai/benchmark.
Harness — это ров. Данные — и ценники — уже это говорят.