2026년 AI 트위터를 조금이라도 봤다면, 어디에서나 똑같은 단어를 봤을 것이다: harness. Anthropic이 쓴다. Salesforce는 이 단어로 제품 페이지 하나를 통째로 만들었다. Princeton은 HAL harness라는 연구 프로젝트를 공개했다. Martin Fowler는 코딩 에이전트를 위한 harness 엔지니어링에 대해 긴 에세이를 썼다. 그리고 모두가 되풀이하는 공식은 동일하다:
Agent = Model + Harness.
그렇다면 Agent Harness란 정확히 무엇이고, 누가 만들며, 비용은 얼마이고, 프로덕션에서는 실제로 어떤 모습일까? 이 가이드는 그 모든 질문에 답한 뒤, Lessie’s 인물 검색 Agent Harness가 모호하고 다중 기준을 가진 쿼리에서 어떻게 적합한 사람을 찾아내는지를 실제 예시로 함께 살펴본다.
Agent Harness란 무엇인가?
Agent Harness는 AI 모델을 감싸, 모델 스스로는 관리할 수 없는 모든 것을 관리하는 소프트웨어 인프라다 — 도구, 메모리, 컨텍스트, 안전 검사, 오류 복구, 그리고 작업의 전체 라이프사이클까지. 모델은 뇌다. Harness는 몸이고, 신경계이고, 뇌가 동작하는 환경이다.
가장 짧은 정의는 HKUDS의 OpenHarness 프로젝트에서 나왔다: 모델이 에이전트이고, 코드가 harness다. Anthropic의 엔지니어링 블로그에서 나온 조금 더 긴 정의: harness는 모델 자체를 제외한 에이전트의 모든 것이다.
이 구분이 왜 중요할까? 2025년 AI 업계는 더 좋은 모델이 모든 문제를 해결해 줄 것이라 가정했다. 그러나 2026년이 되자, 아무런 스캐폴딩 없이 돌아가는 가장 강력한 프런티어 모델조차도 길고 다단계인 실제 작업에서는 실패한다는 사실이 분명해졌다. 도구 호출을 환각한다. 50턴이 지나면 원래 목표를 잃어버린다. 아무도 47번째 턴에 그 실수가 일어났다고 알려주지 않기 때문에 같은 실수를 반복한다. 이 실패에 대한 해법은 더 큰 모델이 아니다. 해법은 Agent Harness다.
AI Agent Harness란, 쉬운 말로는 무엇인가?
“Agent harness”가 여전히 추상적으로 들린다면 유용한 비유 하나. AI 모델을 첫 출근한 뛰어난 신입 사원이라고 생각해보자. 그들은 똑똑하고, 많이 읽었고, 거의 무엇이든 추론할 수 있다. 그러나 화장실이 어디인지 모르고, 회사 도구에 접근할 수 없으며, 어제 회의에서 무슨 이야기가 오갔는지 기억하지 못하고, 뭔가 잘못되면 고객에게 도달하기 전에 누구도 잡아주지 못한다.
AI Agent Harness는 그 신입 사원을 둘러싼 사무실이다. 적합한 방에 들어가게 해주는 사원증, 올바른 소프트웨어가 설치된 노트북, 오늘 무엇을 해야 하는지 알려주는 캘린더, 결과물이 밖으로 나가기 전 리뷰해주는 매니저, 무언가 깨졌을 때 무엇을 해야 하는지 알려주는 플레이북이다.
그래서 누군가 “AI agent harness가 뭐냐”고 물으면, 가장 깔끔한 답은 이것이다: AI Agent Harness는 원시 언어 모델을, 지속적인 감독 없이도 실제 업무를 끝낼 수 있는 신뢰할 수 있는 작업자로 바꿔주는 운영 인프라다. Harness가 없으면 챗봇이 있다. Harness가 있으면 에이전트가 있다.
AI에서 Agent Harness란 무엇인가? 실제로 하는 세 가지 일
진지한 AI 에이전트 harness가 어떻게 만들어지는지 보면 — Anthropic’s Claude Agent SDK, Salesforce’s Agentforce harness, Princeton’s HAL harness, 오픈소스 OpenHarness 프로젝트, 그리고 Lessie 같은 버티컬 harness — 모두 대체로 세 가지 일을 한다. 이 세 가지 책임을 이해하면 Agent Harness가 하는 일의 90%를 이해한 것이다.
첫 번째 책임은 컨텍스트 엔지니어링이다. 모델은 유한한 컨텍스트 창을 가지며, 긴 작업에서는 로그, 도구 출력, 중간 추론, 이전 턴으로 그 창이 빠르게 찬다. Harness는 무엇을 남길지, 무엇을 요약할지, 무엇을 새로 검색할지, 무엇을 버릴지 결정한다. 컨텍스트 엔지니어링이 없으면 에이전트는 연구자들이 context rot이라 부르는 증상에 시달린다 — 원래 목표가 노이즈에 묻히고, 에이전트는 경로에서 이탈하기 시작한다.
두 번째 책임은 가드레일이 있는 도구 오케스트레이션이다. 에이전트는 도구를 사용해야 한다 — 검색, 데이터베이스, API, 파일 시스템, 다른 에이전트— 그러나 원시 모델 출력은 비결정적이며, 잘못 형성된 도구 호출, 잘못된 파라미터, 존재하지도 않는 함수 이름을 심심찮게 만들어낸다. Harness는 모델과 도구 사이에 앉아 모든 호출을 실행 전에 검증하고, 위험한 작업을 샌드박스하고, 깨끗한 구조화된 결과를 모델에 돌려준다. 이것이 데모에서 한 번 동작하는 에이전트와 프로덕션에서 만 번 동작하는 에이전트의 차이다.
세 번째 책임은 라이프사이클과 상태 관리다. 장기 실행 에이전트 작업은 분, 시간, 또는 일 단위로 걸릴 수 있다. 모델은 기본적으로 상태가 없다 — 모든 호출은 처음부터 시작한다. Harness는 에이전트에게 지속성을 부여한다: 체크포인트를 저장하고, 크래시에서 복구하고, 실패한 단계를 재시도하고, 세션을 넘나들며 작업이 살아 있게 한다. 또한 human-in-the-loop 인터럽트를 처리해, 큰 영향을 미치는 의사결정이 계속 진행되기 전에 사람의 승인이 필요할 때 에이전트를 일시 정지시킨다.
이 세 가지 책임 — 컨텍스트, 도구, 라이프사이클 —은 모든 Agent Harness의 내력벽이다. 제품마다 이를 구현하는 방식은 다르지만, 셋 중 하나라도 빠지면 에이전트는 결국 프로덕션에서 실패한다.
Agent Harness는 어디에 쓰이나? 실제 프로덕션 사용 사례
Agent Harness는 누군가가 AI 에이전트를 일회성 채팅이 아닌 실제 워크플로에 배포하려는 곳이라면 어디든 등장한다. 가장 큰 세 카테고리는 코딩, 엔터프라이즈 자동화, 버티컬 지식 업무다.
코딩에서 가장 눈에 띄는 Agent Harness는 Anthropic의 터미널 기반 코딩 에이전트인 Claude Code 내부의 것이다. Claude Code는 본질적으로 모델과, 파일 읽기, 셸 명령 실행, 리포지터리 탐색, 세션 간 진행 로그 유지를 위한 도구를 제공하는 정교하게 설계된 harness의 조합이다. SWE-bench와 TerminalBench-2는 업계가 코딩 harness를 비교할 때 쓰는 두 가지 주요 벤치마크다.
엔터프라이즈 자동화에서 지배적인 harness는 Salesforce Agentforce이다. 이것은 CRM 워크플로를 처리하도록 설계된 런타임으로 모델을 감싼다 — 레코드 업데이트, 이메일 발송, 약속 일정 잡기, 케이스 요약, 여러 전문 에이전트 간 요청 라우팅 같은 일들이다. Agentforce는 스스로를 엔터프라이즈 AI 배포를 위한 harness 계층이라고 명시적으로 마케팅한다.
버티컬 지식 업무에서는 특정 고가치 작업을 위한 harness가 등장하기 시작했다: 법률 리서치, 임상 추론, 금융 분석, 그리고 인물 검색이다. 이 버티컬 harness들은 범용 harness보다 훨씬 좁은 범위를 가지지만 훨씬 깊다 — 하나의 일이 가진 실패 모드에 맞춰 특별히 튜닝되어 있다. Lessie가 이 카테고리의 한 예다: 전문 네트워크, 소셜 플랫폼, 학술 데이터베이스를 가로질러 적합한 사람을 찾는 단일 작업을 중심으로 만들어진 버티컬 Agent Harness이다.
Harness AI DevOps Agent: Salesforce의 관점
2026년에 특히 자리를 잡은 한 구절은 harness AI DevOps agent — 이고, 이 표현은 거의 항상 AI 운영에 대한 Salesforce Agentforce의 접근을 가리킨다. 이 프레이밍에서 Agent Harness는 연구 산출물이 아니라 DevOps 인프라의 한 조각으로 취급된다. 데이터베이스나 Kubernetes 클러스터를 프로비저닝하는 것과 같은 방식으로 프로비저닝하고, 버전을 관리하고, 모니터링하고, 비용을 지불하는 대상이다.
Salesforce의 포지셔닝은, Agent Harness가 모델과 비즈니스 워크플로 사이의 누락된 계층이라는 것이다. 그들의 논리는 이렇다: 기업은 프런티어 모델에 충분히 접근할 수 있지만, 그 모델을 실제 고객 데이터, 실제 매출, 실제 컴플라이언스 요구사항과 맞닿는 프로덕션 워크플로에 안정적으로 배포할 방법이 없다. Harness가 그 배포를 안전하고 운영적으로 온전하게 만든다. 권한을 강제하고, 감사용으로 모든 액션을 기록하고, 긴 작업 동안 컨텍스트를 관리하고, 큰 영향을 미치는 작업에 대해 human-in-the-loop 인터럽트를 제공한다.
이 DevOps 프레이밍은 또한 Salesforce가 harness를 무료로 주는 대신 돈을 받는 이유이기도 하다. 그리고 이는 대부분의 독자가 실제로 궁금해하는 질문으로 이어진다.
Agent Harness는 누가 만드나? 업체와 가격
2026년 Agent Harness 시장은 대략 네 그룹으로 나뉜다: 엔터프라이즈 상용 harness, 개발자 중심 상용 harness, 오픈소스 연구 harness, 그리고 버티컬 상용 harness. 주요 플레이어와 가격에 대한 스냅샷은 다음과 같다.
Salesforce Agentforce는 시장에서 가장 상업적으로 공격적인 Agent Harness다. Salesforce는 여러 가격 모델을 제공한다. 무료 진입점은 Salesforce Foundations로, 테스트용 크레딧을 소량 제공한다. 그 이상에는 두 가지 주요 소비 모델이 있다: 대화당 $2(24시간 창 내의 모든 상호작용을 하나의 대화로 정의)로 과금하는 모델과, 각 액션이 20 크레딧(액션당 약 $0.10)을 소비하는 새로운 Flex Credits 모델이다. 크레딧 팩은 100,000 크레딧 당 $500에 판매된다. 예측 가능한 예산을 원한다면 Salesforce는 사용자당 애드온도 제공한다. 표준 에디션은 사용자당 월 $125부터, 금융 서비스와 의료 같은 규제 산업은 사용자당 월 $150부터 시작한다. 대기업은 무제한 사용 티어인 Agentforce 1 Edition을 구매할 수 있으며, 사용자당 월 $550부터 시작한다. 중견 기업의 실제 배포는 일반적으로 Agentforce 단독으로 연 $15,000에서 $50,000 사이에 자리를 잡는다. 이는 Data Cloud 인프라 비용을 계산하기 전의 금액이며, Data Cloud는 보통 필요하고 종종 harness 라이선스 자체를 뛰어넘는다.
Anthropic’s Claude Agent SDK는 Claude API의 일부로 제공되는 개발자 대상 harness다. 별도의 라이선스 요금은 없다 — 모델 토큰 비용을 내면 harness가 함께 온다. Sonnet과 Opus 티어 가격이 적용된다. 같은 기반 위에 구축된 소비자 대상 harness인 Claude Code는 Claude Pro와 Claude Max 구독에 포함되어 있다. 이것은 개발자를 겨냥한 “범용” Agent Harness에 가장 가까운 존재이며, 코딩 에이전트 생태계의 많은 부분을 구동한다.
LangChain과 LangGraph는 조금 다른 위치에 자리한다. 오픈소스 라이브러리는 무료지만, 호스팅 런타임과 옵저버빌리티 플랫폼(LangSmith)은 트레이스당 과금되며, 무료 티어와 팀용으로 사용자당 월 약 $39부터 시작하는 유료 플랜이 있다. 많은 기업이 자사 맞춤 에이전트 아래의 harness 계층으로 LangGraph를 쓴다.
오픈소스 연구 harness에는 Princeton의 HAL harness(무료, 벤치마크 평가용), HKUDS OpenHarness(무료, MIT 라이선스, 검토 가능한 레퍼런스 구현으로 설계), EleutherAI의 lm-evaluation-harness(무료, 에이전트 배포가 아닌 모델 벤치마킹용)가 있다. 아키텍처가 내부적으로 어떻게 동작하는지 이해하고 싶거나, 자신의 harness를 만들고 싶다면 손을 뻗게 되는 harness들이다.
버티컬 harness는 가장 새로운 카테고리다. Lessie는 인물 검색을 위한 버티컬 Agent Harness이며, 가격은 무료로 시작해 검색 크레딧에 따라 확장된다 —엔터프라이즈 인프라 가격보다는 SaaS 제품에 가깝다. 법률 리서치, 임상 의사결정 지원, 금융 분석 분야에서도 다른 버티컬 harness가 등장하기 시작했으며, 대체로 액션당 소비가 아니라 SaaS 구독으로 가격이 책정된다.
이 지형에서 흥미로운 점은 가격 스프레드다. 연구 harness는 공짜다. Anthropic의 개발자 harness는 모델 토큰 비용만큼 든다. Salesforce의 상용 엔터프라이즈 harness는 중견 기업에 월 수만 달러가 들 수 있다. 그리고 Lessie 같은 버티컬 harness는 SaaS 도구 하나와 비슷한 가격이다. 왜냐하면 모든 것을 위한 인프라가 되려 하지 않고 하나의 일만 해결하기 때문이다. Agent Harness에 단일한 “올바른” 가격은 없다 — 연구 산출물을 사는지, 개발자 빌딩 블록을 사는지, 엔터프라이즈 플랫폼을 사는지, 완성된 버티컬 제품을 사는지에 전적으로 달려 있다.
실제 예시: Lessie’s Agent Harness는 어떻게 적합한 사람을 찾는가
정의와 가격표만으로는 갈 수 있는 거리가 제한적이다. Agent Harness가 실제로 무엇을 하는지 이해하는 가장 명확한 방법은 실제 쿼리에서 동작하는 모습을 보는 것이다. 그래서 아래는 단일 인물 검색 작업을 처음부터 끝까지 따라가는 워크스루이며, 활성화되는 시점마다 각 harness 구성요소를 짚어준다.
쿼리는 PeopleSearchBench 데이터셋에서 더 어려운 것 중 하나다:
“베를린 시리즈 B 스타트업에서 지난 1년 안에 LLM 제품을 출시했고, 공개적인 기술 글쓰기 활동이 있는 시니어 머신러닝 엔지니어를 찾아줘.”
순진한 접근은 이 문장 전체를 검색 엔진에 그대로 던지고 최선을 바라는 것이다. 그것은 분명한 이유로 실패한다: 인터넷에는 “시니어 ML 엔지니어 + 시리즈 B + 베를린 + LLM 제품 출시 + 공개 글쓰기”를 한꺼번에 인덱싱하는 단일 소스가 없다. 정보는 다섯 군데 다른 곳에 흩어져 있고, 누군가 — 혹은 무언가 —가 그것을 융합해야 한다. 바로 여기서 harness가 제값을 한다.
1단계 — 쿼리 분해 (컨텍스트 엔지니어링 계층). Lessie harness는 원시 문장을 모델에 그대로 넘기지 않는다. 먼저 쿼리를 명시적이고 검증 가능한 기준으로 분해한다: 역할 = ML 엔지니어, 시니어리티 = 시니어, 회사 단계 = 시리즈 B, 위치 = 베를린, 최근 산출물 = 12개월 이내 LLM 제품 출시, 공개 풋프린트 = 기술 글쓰기 존재. 각 기준은 검증 술어가 되어 이후 단계에서 독립적으로 확인된다. 이 분해는 PeopleSearchBench가 검색 플랫폼을 채점할 때 쓰는 방법론과 동일하며, “베를린의 시니어들”을 반환하는 쿼리와 올바른 여섯 명을 반환하는 쿼리 사이의 차이다.
2단계 — 다중 소스 오케스트레이션 (도구 계층). Harness는 분해된 쿼리를, 각 기준이 실제로 존재하는 소스에 걸쳐 병렬로 팬아웃한다. 현재 역할과 시니어리티는 전문 네트워크에서. 회사 단계는 스타트업 데이터베이스와 투자 공지에서. 위치는 여러 소스에 걸친 지리적 시그널에서. LLM 제품 출시는 GitHub, 제품 런칭 페이지, 체인지로그 언급에서. 기술 글쓰기 활동은 개인 블로그, Substack, dev.to, 컨퍼런스 발표 리스트에서. 모델은 원시 팬아웃을 보지 않는다 — harness가 병렬성을 처리하고, 실패한 소스를 재시도하며, 통합된 후보 집합을 조립한다.
3단계 — 검증 루프 (센서 계층). 이것이 대부분의 범용 에이전트가 건너뛰는 단계이며, 대부분의 범용 에이전트가 존재하지 않는 사람을 환각하는 이유다. 오케스트레이션 계층이 표면화하는 모든 후보에 대해 harness는 라이브 웹 검증 패스를 돌린다: 후보가 결과 집합에 포함되기 전에 각 기준을 새로운 소스에 대해 확인한다. Harness가 “Anna Schmidt”가 정말로 베를린의 시리즈 B 회사에 있다는 사실을 독립적으로 검증할 수 없다면, Anna Schmidt는 출력에 등장하지 않는다. 이것이 바로 Salesforce가 Agentforce 문서에서 설명하는 가드레일 계층이며, 다만 인물 검색 특유의 실패 모드에 맞춰 전문화되어 있을 뿐이다.
4단계 — 프로필 보강 (도구 계층, 2차 패스). 후보가 검증을 통과하면 harness는 구조화된 프로필 데이터를 추가로 가져온다: 현재 역할과 재직 기간, 최근 활동, 출판 링크, 연락 경로, 소셜에서의 존재감. 이것이 Lessie가 PeopleSearchBench의 Utility 차원에서 가장 높은 점수를 받는 이유다 — 빈 필드와 함께 올바른 사람을 돌려주는 것은 사실 쓸모가 없으며, 범용 harness는 보강을 별도 단계로 만들 내재적 이유가 없다.
5단계 — 랭킹과 표현 (모델 계층). 맨 마지막에 가서야 모델은 모델이 유일하게 잘하는 일을 한다: 검증되고 보강된 후보 집합을 읽고 원래 쿼리에 대한 전반적인 적합도로 순위를 매기는 것이다. 모델은 판단을 내리지만, 그 판단은 노이즈가 가득한 원시 웹 덤프가 아니라 깨끗하고 검증되고 구조화된 입력에 대해 내려진다.
전체 시퀀스는 자동으로 실행된다. 사용자의 관점에서는 한 문장을 입력했고 실제 프로필과 각 사람이 왜 일치하는지에 대한 실제 증거가 있는 여섯 명의 실제 사람을 돌려받았다. Harness의 관점에서는 그 한 문장이 쿼리 분해, 병렬 다중 소스 검색, 수십 번의 검증 호출, 프로필 보강, 그리고 최종 랭킹 패스를 트리거한 것이다 — 모두 조율되고, 모두 오류 처리되고, 모두 기록된다.
이것이 AI에서 Agent Harness가 자기 일을 할 때 실제로 보여주는 모습이다. 모델은 눈에 보이는 작업의 20% 정도를 한다. Harness가 나머지 80%를 하고, 그 80%가 데모에서 동작하는 에이전트와 119번째 쿼리에서도 무너지지 않고 동작하는 에이전트의 차이다.
2026년 그리고 그 이후 Agent Harness는 무엇을 의미하게 될까?
2026년 harness 대화에서 가장 흥미로운 점은, 그것이 표준적인 AI 서사를 뒤집었다는 사실이다. 지난 3년 동안 AI 진보에 대한 모든 대화는 모델 크기, 모델 학습, 모델 벤치마크에 대한 대화였다. 암묵적 가정은 다음 모델이 지금 모델에 망가진 것은 무엇이든 고칠 것이라는 것이었다.
Harness 가설은 그 반대를 말한다: 모델 진보는 실재하지만 둔화되고 있으며, 에이전트 신뢰성의 남은 향상은 모델 주변 인프라에 있다. Salesforce는 가격 제안에서 이 점을 말한다. Anthropic은 Claude Agent SDK 문서에서 이 점을 말한다. Princeton은 연구 플랫폼으로서의 HAL harness로 이 점을 말한다. 2026년 3월에 나온 Meta-Harness 논문은, 고정된 모델 주변의 harness를 자동으로 다시 쓰는 것만으로 가중치를 전혀 건드리지 않고도 코딩 벤치마크 점수를 몇 점 끌어올릴 수 있음을 경험적으로 보임으로써 이 점을 말했다.
가설이 옳다면 두 가지가 따라온다. 첫째, 상업적으로 가치 있는 모든 에이전트 작업은 결국 자기만의 전문화된 harness를 키울 것이다. 코딩은 이미 하나를 가지고 있다. CRM 자동화도 하나를 가지고 있다. 인물 검색도 하나를 가지고 있다. 법률 리서치, 임상 추론, 금융 분석, 공급망 조사도 각자의 것을 가지게 될 것이다. Salesforce 같은 수평적 플레이어는 교차 기능 엔터프라이즈 계층을 지배할 것이고, Lessie 같은 버티컬 플레이어는 범용 harness가 결코 최적화하지 않을 실패 모드를 가진 특정 업무를 지배할 것이다. 둘째, Agent Harness에 대한 벤치마크는 원시 모델에 대한 벤치마크보다 더 중요해질 것이다. PeopleSearchBench는 그 초기 예시 중 하나다. 앞으로 더 많이 나올 것이다.
모델은 엔진이다. Harness는 차체다. 2026년, 차가 엔진보다 더 중요해지기 시작했다.
버티컬 Agent Harness가 만들어진 목적의 일을 실제로 수행하는 모습을 보고 싶다면, lessie.ai에서 Lessie를 써보세요. 그리고 위의 인물 검색 예시 뒤에 있는 전체 벤치마크 방법론이 궁금하다면, PeopleSearchBench 데이터셋과 논문은 lessie.ai/benchmark에서 오픈소스로 공개되어 있습니다.
Harness가 해자다. 데이터 — 그리고 가격표 —가 이미 그렇게 말하고 있다.