Harness Agent vs. Claude Code: 버티컬 에이전트가 인물 검색에서 19점 앞선 이유

65.2Lessie 종합 점수

45.8Claude Code 종합

+19.4Harness 격차(점)

119실제 쿼리 수

2026년, AI 분야에서 가장 흥미로운 한 문장은 새 모델에 관한 것이 아니다. Anthropic, Martin Fowler, 그리고 AI 연구 커뮤니티의 절반이 최근 몇 주 사이에 하나의 공식으로 수렴했다:

Agent = Model + Harness.

최근 AI 트위터를 보면 harness라는 단어가 사방에서 보인다. 프린스턴은 HAL harness를 공개했다. HKUDS는 OpenHarness를 오픈소스로 풀었다. 새로 나온 Meta-Harness 논문은, 모델 가중치를 전혀 건드리지 않은 채 Harness만 자동으로 다시 작성해도 TerminalBench-2 점수를 몇 점 올릴 수 있음을 보였다. Philipp Schmid는 Agent harness를 “장기 작업에서 모델 드리프트를 해결하는 일차적 도구”라고 불렀다.

그런데 아무도 큰 소리로 말하지 않는 사실이 있다. 2026년 Harness 논의의 거의 전부가 코딩 에이전트에 관한 이야기다. Claude Code. SWE-bench. 터미널 작업. 리포지터리 탐색.

그렇다면 그 외의 세계는 어떨까? Git 리포지터리를 건드리지 않는 에이전트 작업은?

우리는 Lessie다. 단 하나의 일을 위한 Harness Agent를 만든다 — 사람 찾기다. 리크루터는 후보자를 찾기 위해, 영업은 의사결정자를 찾기 위해, VC는 창업자를 찾기 위해, 마케터는 크리에이터를 찾기 위해 우리를 쓴다. 그래서 Harness 논쟁이 뜨거워졌을 때, 우리는 구체적인 무언가가 알고 싶었다.“Harness가 모델보다 중요하다”는 가설이 코딩 바깥에서도 정말 성립할까?

그래서 우리는 벤치마크를 만들고 실험을 돌렸다. 결과가 바로 PeopleSearchBench이고, 핵심 숫자는 이렇다:

119개의 실제 인물 검색 쿼리에서 Lessie는 65.2점을, Sonnet 4.6에서 동작한 Claude Code는 45.8점을 기록했다. 42% 차이 — 변한 것은 Harness뿐이다.

이것이 무엇을 의미하는지 풀어보자.

Harness Agent란 무엇인가, 쉬운 말로

가장 짧은 정의는 OpenHarness 팀이 제시했다: 모델이 Agent이고, 코드가 Harness이다. Parallel Web의 조금 더 긴 정의: Harness는 모델을 감싸고 그 도구 호출을 가로채며 컨텍스트를 관리하고 작업의 궤도에 붙들어 두는 런타임이다.

Martin Fowler는 이것을 서로 보완하는 두 절반으로 본다.Guides는 피드포워드 제어다 — 에이전트가 행동하기 전에 그 행동을 형성한다(시스템 프롬프트, 도구 설명, 검색된 컨텍스트, 환경 스냅샷).Sensors는 피드백 제어다 — 에이전트가 무엇을 했는지 관찰하고 교정을 다시 입력한다(린터, 검증기, 검증 루프). 좋은 Harness는 둘을 모두 갖춘다. 나쁜 Harness는 피드포워드만 가진 채로, 47번째 턴에 같은 실수를 반복하는 에이전트를 멍하니 바라본다.

그러므로 Harness Agent는 하나의 통합된 패키지다 — 모델 + 가이드 + 센서 + 도구 + 메모리 + 검증 로직. 원시 토큰 예측을 실제 일을 끝낼 수 있는 시스템으로 바꾸는 전체 구성이다.

두 가지 흐름이 등장하고 있다:

범용 Harness — Claude Agent SDK, OpenHarness, Claude Code 내장 Harness. 도메인 비종속을 목표로 설계되었다.
버티컬 Harness — 하나의 일을 중심으로 만들어지고, 가이드와 센서가 그 일의 실패 모드에 맞춰 조정되어 있다.

들어봤을 만한 거의 모든 Harness 벤치마크 — SWE-bench, TerminalBench-2, USACO, AppWorld — 는 범용 Harness를 코딩 작업에서 측정한 것이다. 우리가 아는 한, PeopleSearchBench는 버티컬 Harness Agent와 범용 Harness를 코딩이 아닌 작업에서 정면으로 맞붙인 첫 벤치마크다.

인물 검색에 전용 Harness가 필요한 이유

범용 AI 에이전트에게 “베를린 시리즈 B 스타트업에서 LLM 제품을 출시한 시니어 ML 엔지니어를 찾아줘”라고 부탁해본 적이 있다면, 전형적인 실패 패턴을 이미 알 것이다. 그중 세 가지가 특히 끈질기고, 모두 모델의 문제가 아니라 Harness의 문제다:

1. 교차 소스 엔티티 해결.실존 인물은 LinkedIn, X, GitHub, 컨퍼런스 발표, 회사 페이지, 학술 데이터베이스에 걸쳐 존재한다. 이름도 사진도 다르고 때로는 철자조차 다르다. 범용 Harness에는 “이 LinkedIn 프로필과 저 GitHub 계정이 같은 사람이다”라는 내장 개념이 없다. 인물 검색 Harness는 이 문제를 모든 쿼리마다 풀어야 한다.

2. 검증 루프.센서 계층이 없는 에이전트는 자신만만하게 인물을 만들어낸다. 존재하지 않는 “Stripe 베를린의 시니어 ML 엔지니어”를 인용하기도 한다 — 토큰만 보면 그럴듯하기 때문이다. 해법은 더 똑똑한 모델이 아니다 — Claude Code 안의 Sonnet 4.6도 똑같이 그런다. 해법은 센서다: 반환된 모든 인물은 사용자에게 도달하기 전에 라이브 웹 소스에서 검증되어야 한다.

3. 인간 속성에 대한 쿼리 분해.“베를린 시리즈 B에서 LLM 제품을 출시한 ML 엔지니어”는 단일 쿼리가 아니다. 체크리스트다: 역할 + 시니어리티 + 회사 단계 + 지역 + 도메인 + 최근 산출물. 범용 Harness는 이 문장 전체를 검색창에 던져 넣는다. 버티컬 Harness는 이를 기준으로 분해해 적절한 소스에서 병렬로 돌리고, 다시 모아 정렬한다.

이 셋은 정확히 Fowler가 말한 가이드와 센서다. 다만 범용 코딩 Harness에는 아무도 만들어 넣지 않는 가이드와 센서일 뿐이다 — 코딩 Harness에는 필요 없기 때문이다.

증거: PeopleSearchBench

우리는 이 가설을 정직하게 검증하기 위해 PeopleSearchBench를 만들었다. 전체 방법론은 논문에 있지만, 짧은 버전은 이렇다:

119개의 실제 쿼리 — 실제 리크루터, 영업, 리서치 워크플로에서 수집
4개 언어(영어, 포르투갈어, 스페인어, 네덜란드어)
4가지 시나리오: 채용(30), B2B 프로스펙팅(32), 전문가 / 결정적 검색(28), 인플루언서 / KOL(29)
4개 플랫폼: Lessie(버티컬 Harness Agent), Exa(구조화 검색 API), Juicebox / PeopleGPT(8억+ 프로필 보유 채용 플랫폼), Claude Code(Sonnet 4.6 위의 범용 Harness)
3개의 독립 차원: Relevance(padded nDCG@10), Coverage(작업 완료율 × 산출량), Utility(프로필 정보 충실도)
LLM 감으로 채점하지 않고 라이브 웹 검색으로 검증 — 반환된 모든 인물은 LinkedIn, 회사 사이트, 공개 프로필과 대조해 사실 확인된다. 검증 에이전트는 어떤 결과가 어느 플랫폼에서 나왔는지 전혀 모른다.

종합 점수는 다음과 같다:

Lessie: 종합 65.2 | Relevance 70.2 | Coverage 69.1 | Utility 56.4
Exa: 종합 54.6 | Relevance 53.8 | Coverage 58.1 | Utility 53.1
Claude Code: 종합 45.8 | Relevance 54.3 | Coverage 41.1 | Utility 42.7
Juicebox: 종합 45.8 | Relevance 44.7 | Coverage 41.8 | Utility 50.9

Lessie는 모든 차원에서 1위다. 119개 쿼리 전부를 끝까지 돌린 유일한 플랫폼이기도 하다 — 완주율 100%. 다른 셋은 틈새 검색에서 종종 아무것도 돌려주지 못했다.

그러나 Harness 논쟁에 가장 중요한 숫자는 Lessie와 Claude Code 사이의 차이다. 둘 다 AI 에이전트이고, 둘 다 도구를 호출할 수 있고, 둘 다 웹을 검색할 수 있다. Claude Code는 지구상에서 가장 강력한 모델 중 하나 위에서 동작한다. 그럼에도 종합에서 19.4점을 졌고, Coverage 단일 차원에서는 28점 차이가 났다.

이 19.4점은 모델 차이가 아니다. Harness 차이다.

단일 시나리오 최대 격차는 인플루언서 / KOL 발굴이었다. Lessie 62.3, Claude Code 43.2. 인플루언서 검색은 범용 Harness가 가장 처참하게 무너지는 영역이다. 정답이 TikTok, Instagram, YouTube, X에 동시에 흩어져 있고, 범용 Harness는 그것들을 융합할 줄 모르기 때문이다. 가장 좁았던 격차는 채용이었고, 세 플랫폼이 모두 64점을 넘었다 — 채용은 인물 검색 중 가장 성숙한 버티컬이고, 업계가 오랜 시간 도구를 다듬어왔다.

패턴은 일관된다:다중 소스 융합과 검증이 더 많이 필요한 시나리오일수록 Harness가 더 결정적이다.

Lessie Harness의 내부 구조

시스템 프롬프트는 공개하지 않는다. 그러나 아키텍처는 세 개의 계층으로 구성되며, 가이드와 센서 모델에 깔끔하게 매핑된다. 어떤 버티컬 Harness Agent라도 필요로 할 만한 구조이기에 여기 적어둔다:

레이어 1 — 다중 소스 오케스트레이션 (Guides).쿼리가 들어오면 Harness는 이를 직업 네트워크, 소셜 플랫폼, 학술 데이터베이스, 공공 등록소에 병렬로 라우팅한다. 각 소스에는 고유한 검색 전략이 있다. 모델은 원시 팬아웃을 보지 않는다 — 통합된 후보 집합만 본다.

레이어 2 — 기준 분해와 검증 (Sensors).모든 쿼리는 명시적인 기준으로 분해된다 — 역할, 시니어리티, 지역, 회사 단계, 시그널 — 그리고 모든 후보는 정렬 단계에 도달하기 전에 라이브 웹 조회로 그 기준에 비추어 검증된다. 이것이 PeopleSearchBench가 우리를 채점하는 방법론이기도 하다. 우연이 아니다 — 우리는 이 벤치마크가 측정하는 실패 모드를 중심으로 Harness를 만들었다.

레이어 3 — 프로필 보강.검증을 통과한 인물에 대해 Harness는 구조화된 프로필 데이터를 추가로 끌어온다 — 현재 직책, 최근 활동, 연락 경로, 소셜에서의 존재감. 이것이 우리의 Utility 점수가 업계를 앞서는 이유다: 정확한 사람을 돌려줘도 필드가 비어 있다면 쓸모가 없다. 범용 Harness는 보강을 기본 단계로 만들 이유가 없다.

가운데 모델은 모델이 잘하는 일을 한다 — 추론, 정렬, 요약, 판단. Harness는 그 외의 모든 일을 한다. Harness를 떼면 챗봇이 남고, 모델을 떼면 검색 파이프라인이 남는다. 둘을 결합해야 비로소 버티컬 Harness Agent가 된다.

이것이 Harness 논쟁에 의미하는 바

2026년 Harness 논쟁의 가장 흥미로운 주장은, 정적 벤치마크에서 모델 성장은 둔화되고 있지만 에이전트 성능은 여전히 활짝 열려 있다는 것이다. 남은 개선의 대부분이 Harness에 있기 때문이다. Meta-Harness는 코딩에서 더 나은 Harness를 자동으로 발견함으로써 이를 보였다. PeopleSearchBench는 반대 방향에서 같은 사실을 보인다: 손으로 다듬은 버티컬 Harness가 범용 Harness 안의 프런티어 모델을 큰 폭으로 이길 수 있고, 그 폭은 어떤 모델 업그레이드로도 메워지지 않는다.

이것이 옳다면 두 가지가 따라온다.

첫째, 상업적 가치가 있는 모든 에이전트 작업은 자기 전용의 Harness Agent를 가지게 될 것이다.인물 검색이 그 하나다. 법률 리서치도 그렇다. 임상 추론, 금융 분석, 공급망 조사, 과학 문헌 리뷰 — 이 모든 영역에는 범용 Harness가 결코 최적화하지 않을 실패 모드가 있다. 범용 Harness는 모든 것을 동시에 최적화하기 때문이다. 버티컬 Harness Agent는 SaaS가 소프트웨어의 롱테일을 가져갔던 방식 그대로 에이전트 업무의 롱테일을 가져갈 것이다.

둘째, 벤치마크도 따라와야 한다.SWE-bench와 TerminalBench-2는 훌륭하지만, Harness 품질의 한 단면만을 측정한다. 업계가 Harness 가설을 진지하게 받아들인다면, 가치 있는 모든 버티컬에 대해 Harness 벤치마크가 필요하다. PeopleSearchBench는 인물 검색이라는 버티컬에서 우리가 시작한 첫걸음이다. 데이터셋, 평가 파이프라인, 결과는 모두 오픈소스다.

모델은 엔진이고, Harness는 차체다.우리는 이 차를 한 길을 위해 만들었다. 당신의 일이 사람을 찾는 일이라면 — 후보자, 고객, 투자자, 크리에이터, 파트너 — 이 차를 한번 타보시길:lessie.ai. 그리고 원래 그 일을 위해 만들어진 적이 없는 작업에서 우리가 어떻게 프런티어 모델 코딩 에이전트를 이겼는지 정확히 보고 싶다면, 전체 벤치마크와 논문은여기에 있다.

2026년, Harness가 곧 해자다. 숫자가 그렇게 말한다.

FAQ

Harness Agent란 무엇인가요?

Harness Agent는 컨텍스트, 도구 호출, 검증 루프, 메모리를 관리하는 런타임에 감싸인 모델입니다. Martin Fowler는 이를 두 부분으로 나눕니다: Guides(피드포워드 제어 — 시스템 프롬프트, 도구 설명, 검색 컨텍스트 등)와 Sensors(피드백 제어 — 린터, 검증기, 검증 루프 등). 모델 자체는 토큰 예측기일 뿐이지만, Harness가 더해지면 실제 일을 끝낼 수 있는 시스템이 됩니다.

왜 2026년에 Harness가 모델보다 더 중요하다고 하나요?

프런티어 모델의 정적 벤치마크 성장은 둔화되었지만, 에이전트 성능은 여전히 큰 여지가 있습니다. 남은 향상의 대부분이 Harness에 있기 때문입니다. Meta-Harness 연구는 가중치를 전혀 바꾸지 않은 채 Harness만 새로 작성해도 TerminalBench-2 점수가 몇 점 오를 수 있음을 보였습니다. PeopleSearchBench는 반대 방향에서 같은 패턴을 보입니다 — 버티컬 Harness Agent가 Sonnet 4.6 위의 Claude Code를 종합 19.4점 차로 이겼고, 변한 것은 Harness뿐이었습니다.

PeopleSearchBench는 무엇이고 어떻게 측정하나요?

PeopleSearchBench는 AI 인물 검색을 위한 오픈소스 벤치마크입니다. 119개의 실제 쿼리를 4가지 시나리오(채용, B2B 프로스펙팅, 전문가 / 결정적 검색, 인플루언서 / KOL)와 4개 언어에 걸쳐 평가하며, 세 개의 독립 차원으로 채점합니다: Relevance(padded nDCG@10), Coverage(작업 완료율 × 산출량), Utility(프로필 정보 충실도). 반환된 모든 인물은 LinkedIn, 회사 사이트, 공개 프로필에 대한 라이브 웹 검색으로 검증되며, 검증 에이전트는 어떤 결과가 어느 플랫폼에서 나왔는지 알지 못합니다. 전체 결과는여기에 있습니다.

어떻게 Lessie가 인물 검색에서 Claude Code를 19점이나 앞섰나요?

Claude Code에 없는 세 개의 버티컬 Harness 계층 덕분입니다. 첫째, 직업 네트워크, 소셜 플랫폼, 학술 데이터베이스, 공공 등록소에 병렬로 팬아웃하는 다중 소스 오케스트레이션. 둘째, 모든 쿼리를 명시적 기준으로 분해하고 정렬 전에 라이브 웹 소스로 모든 후보를 검증하는 기준 분해 및 검증 계층. 셋째, 검증을 통과한 모든 사람에 대해 직책, 최근 활동, 연락 경로 같은 구조화 데이터를 채워 넣는 프로필 보강 계층. Sonnet 4.6 위의 Claude Code는 매우 우수한 범용 Harness이지만, 내장 엔티티 해결도, 검증 센서도, 보강 단계도 없습니다. 이것들은 모델 계층의 기능이 아니라 Harness 계층의 기능입니다.

버티컬 Harness Agent와 범용 Harness Agent의 차이는?

범용 Harness Agent — Claude Code, Claude Agent SDK, OpenHarness — 는 도메인 비종속적이며, 주로 광범위한 도구 사용과 코딩 워크플로에 최적화되어 있습니다. 버티컬 Harness Agent는 하나의 일을 중심으로 만들어지고, 가이드와 센서가 그 일의 실패 모드에 맞춰 조정되어 있습니다. 인물 검색에는 범용 Harness가 결코 최적화하지 않을 끈질긴 실패 모드가 있습니다(교차 소스 엔티티 해결, 인물 환각, 다중 기준 쿼리 분해). 범용 Harness는 모든 것을 동시에 최적화하기 때문입니다. 버티컬 Harness Agent는 SaaS가 소프트웨어의 롱테일을 가져갔던 방식과 똑같이 에이전트 업무의 롱테일을 가져갈 것입니다.