Im Jahr 2026 ist der spannendste Satz in der KI-Welt nicht der über ein neues Modell. Es ist eine Formel, auf die sich Anthropic, Martin Fowler und die halbe KI-Forschungs-Community in den letzten Wochen geeinigt haben:
Agent = Model + Harness.
Wer in den letzten Wochen auf AI-Twitter unterwegs war, ist überall über das Wort Harness gestolpert. Princeton hat HAL Harness veröffentlicht. HKUDS hat OpenHarness Open Source gestellt. Ein neues Meta-Harness-Paper hat gezeigt: Wenn man die Harness rund um ein eingefrorenes Modell automatisch neu schreibt, lassen sich die TerminalBench-2-Werte um mehrere Punkte steigern — ohne ein einziges Gewicht anzufassen. Philipp Schmid bezeichnete die Agent-Harness als „das primäre Werkzeug, um Modell-Drift in lang laufenden Aufgaben zu lösen“.
Was aber niemand laut sagt: Fast jede Harness-Diskussion 2026 handelt von Coding-Agenten. Claude Code. SWE-bench. Terminal-Aufgaben. Repo-Navigation.
Und der ganze Rest? Was ist mit der Agent-Arbeit ohne Git-Repository?
Wir sind Lessie, und wir bauen einen Harness Agent für genau eine Aufgabe: Menschen finden. Recruiter nutzen uns, um Kandidaten zu finden. Vertriebsteams, um Entscheider zu finden. VCs, um Gründer zu finden. Marketer, um Creator zu finden. Als die Harness-Debatte abhob, wollten wir deshalb etwas Konkretes wissen: Hält die These „Harness ist wichtiger als das Modell“ auch außerhalb der Programmierung stand?
Also haben wir einen Benchmark gebaut und das Experiment gefahren. Das Ergebnis heißt PeopleSearchBench, und die Schlagzeile lautet:
Bei 119 realen People-Search-Anfragen erzielte Lessie 65,2 Punkte. Claude Code, betrieben auf Sonnet 4.6, kam auf 45,8. Das sind 42% Abstand — und das Einzige, was sich änderte, war die Harness.
Schauen wir uns an, was das bedeutet.
Was ist ein Harness Agent, in einfachen Worten?
Die kürzeste Definition stammt vom OpenHarness-Team: Das Modell ist der Agent, der Code ist die Harness.Eine etwas längere von Parallel Web: Eine Harness ist die Laufzeitumgebung, die ein Modell umhüllt, seine Tool-Aufrufe abfängt, seinen Kontext verwaltet und es bei der Aufgabe hält.
Martin Fowler beschreibt das als zwei zusammenarbeitende Hälften.Guides sind Feed-Forward-Steuerung: Sie formen das Verhalten des Agents, bevor er handelt (System-Prompts, Tool-Beschreibungen, abgerufener Kontext, Umgebungsschnappschüsse).Sensors sind Feedback-Steuerung: Sie beobachten, was der Agent getan hat, und speisen Korrekturen zurück (Linter, Validatoren, Verifikationsschleifen). Eine gute Harness verbindet beides. Eine schlechte Harness ist nur Feed-Forward und sieht zu, wie der Agent in Runde 47 denselben Fehler wiederholt.
Ein Harness Agent ist also das ganze Paket: Modell + Guides + Sensors + Tools + Memory + Verifikationslogik. Das, was rohe Token-Vorhersage in etwas verwandelt, das einen echten Job zu Ende bringt.
Zwei Geschmacksrichtungen kristallisieren sich heraus:
- Universelle Harnesses wie das Claude Agent SDK, OpenHarness oder die eingebaute Harness in Claude Code. Sie sind domänenagnostisch entworfen.
- Vertikale Harnesses, gebaut um genau eine Aufgabe, mit Guides und Sensors, die auf die Fehlermuster genau dieser Aufgabe zugeschnitten sind.
Fast jeder Harness-Benchmark, von dem du gehört hast — SWE-bench, TerminalBench-2, USACO, AppWorld — misst universelle Harnesses bei Coding-Aufgaben. Soweit wir wissen, ist PeopleSearchBench der erste Benchmark, der einen vertikalen Harness Agent gegen einen universellen in einer Nicht-Coding-Aufgabe antreten lässt.
Warum People Search ihre eigene Harness braucht
Wer einem allgemeinen KI-Agent jemals gesagt hat: „Find mir Senior-ML-Engineers bei Series-B-Startups in Berlin, die LLM-Produkte ausgeliefert haben“, kennt die Fehlermuster bereits. Drei davon sind besonders hartnäckig — und alle drei sind Harness-Probleme, keine Modell-Probleme:
1. Cross-Source-Entitätenauflösung.Eine reale Person existiert quer durch LinkedIn, X, GitHub, Konferenzvorträge, Firmenseiten und akademische Datenbanken. Sie verwenden unterschiedliche Namen, unterschiedliche Fotos, manchmal sogar unterschiedliche Schreibweisen. Eine universelle Harness hat keinen eingebauten Begriff von „dieses LinkedIn-Profil und dieser GitHub-Account sind derselbe Mensch“. Eine People-Search-Harness muss das in jeder Anfrage lösen.
2. Verifikationsschleifen.Ohne Sensor-Schicht erfinden Agenten selbstbewusst Personen. Sie zitieren einen „Senior ML Engineer bei Stripe Berlin“, den es nicht gibt, weil die Tokens plausibel klingen. Die Lösung ist kein klügeres Modell — Sonnet 4.6 in Claude Code macht das genauso. Die Lösung ist ein Sensor: Jede zurückgelieferte Person wird gegen Live-Webquellen geprüft, bevor sie überhaupt beim Nutzer landet.
3. Query-Zerlegung für menschliche Attribute.„Series-B Berlin ML Engineer, der LLM-Produkte ausgeliefert hat“ ist keine einzelne Anfrage. Es ist eine Checkliste: Rolle + Seniorität + Unternehmensphase + Standort + Domäne + jüngste Outputs. Eine universelle Harness wirft den ganzen Satz in die Suchbox. Eine vertikale Harness zerlegt ihn in Kriterien, lässt sie parallel über die richtigen Quellen laufen und setzt das Ergebnis dann wieder zusammen und sortiert es.
Das alles ist genau, was Fowler mit Guides und Sensors meint. Es sind nur die Guides und Sensors, die niemand in eine universelle Coding-Harness einbaut — weil eine Coding-Harness sie nicht braucht.
Die Belege: PeopleSearchBench
Wir haben PeopleSearchBench gebaut, um diese Frage ehrlich zu testen. Die volle Methodik steht im Paper, hier die Kurzfassung:
- 119 reale Anfragen, gesammelt aus echten Recruiter-, Sales- und Research-Workflows
- 4 Sprachen (Englisch, Portugiesisch, Spanisch, Niederländisch)
- 4 Szenarien: Recruiting (30), B2B-Prospecting (32), Expert / Deterministic (28), Influencer / KOL (29)
- 4 Plattformen: Lessie (vertikaler Harness Agent), Exa (strukturierte Such-API), Juicebox / PeopleGPT (Recruiting-Plattform mit 800M+ Profilen), Claude Code (universelle Harness auf Sonnet 4.6)
- Drei unabhängige Dimensionen: Relevance (Padded nDCG@10), Coverage (Task Completion × Yield), Utility (Vollständigkeit der Profildaten)
- Verifikation per Live-Web-Suche, nicht per LLM-Bauchgefühl — jede zurückgegebene Person wird gegen LinkedIn, Firmenseiten und öffentliche Profile geprüft. Der Verifikations-Agent weiß nicht, welche Plattform welches Ergebnis geliefert hat.
Die Gesamtwerte:
- Lessie: Gesamt 65,2 | Relevance 70,2 | Coverage 69,1 | Utility 56,4
- Exa: Gesamt 54,6 | Relevance 53,8 | Coverage 58,1 | Utility 53,1
- Claude Code: Gesamt 45,8 | Relevance 54,3 | Coverage 41,1 | Utility 42,7
- Juicebox: Gesamt 45,8 | Relevance 44,7 | Coverage 41,8 | Utility 50,9
Lessie ist in jeder Dimension Erster. Es ist außerdem die einzige Plattform, die alle 119 Anfragen abgeschlossen hat — eine Completion-Rate von 100%. Die anderen drei lieferten bei Nischen-Suchen regelmäßig nichts zurück.
Aber die Zahl, die für die Harness-Debatte am meisten zählt, ist der Abstand zwischen Lessie und Claude Code. Beide sind KI-Agenten. Beide können Tools aufrufen. Beide können das Web durchsuchen. Claude Code läuft auf einem der stärksten Modelle des Planeten. Trotzdem verlor es im Gesamtwert um 19,4 Punkte — und bei der Coverage allein um 28 Punkte.
Diese 19,4 Punkte sind kein Modell-Abstand. Es ist ein Harness-Abstand.
Der größte Abstand in einem einzelnen Szenario lag bei der Influencer/KOL-Discovery: Lessie 62,3, Claude Code 43,2. Influencer-Suche ist die Stelle, an der universelle Harnesses am heftigsten zerbrechen, denn die richtige Antwort liegt zugleich auf TikTok, Instagram, YouTube und X — und eine universelle Harness weiß nicht, wie sie diese Quellen verschmelzen soll. Der kleinste Abstand fand sich beim Recruiting, wo drei Plattformen über 64 lagen — Recruiting ist die reifste People-Search-Vertikale, die Branche hat seit Jahren Werkzeuge dafür gebaut.
Das Muster ist konsistent: Je stärker ein Szenario Multi-Source-Fusion und Verifikation verlangt, desto mehr zählt die Harness.
Was in der Lessie-Harness steckt
Wir veröffentlichen unsere System-Prompts nicht. Aber die Architektur hat drei Schichten, die sauber auf das Guides-und-Sensors-Modell abbilden — und die ungefähr beschreiben, was jeder vertikale Harness Agent braucht:
Schicht 1 — Multi-Source-Orchestrierung (Guides).Sobald eine Anfrage hereinkommt, routet die Harness sie parallel über professionelle Netzwerke, Social-Plattformen, akademische Datenbanken und öffentliche Register. Jede Quelle hat ihre eigene Retrieval-Strategie. Das Modell sieht die rohe Verteilung nie — es sieht eine vereinheitlichte Kandidatenmenge.
Schicht 2 — Kriterien-Zerlegung und Verifikation (Sensors).Jede Anfrage wird in explizite Kriterien zerlegt — Rolle, Seniorität, Standort, Unternehmensphase, Signale — und jeder Kandidat wird vor dem Ranking-Schritt per Live-Web-Lookup gegen diese Kriterien geprüft. Das ist exakt die Methodik, mit der PeopleSearchBench uns bewertet, und das ist kein Zufall: Wir haben die Harness um die Fehlermuster gebaut, die der Benchmark misst.
Schicht 3 — Profile Enrichment.Hat eine Person die Verifikation bestanden, zieht die Harness strukturierte Profildaten nach — aktuelle Rolle, jüngste Aktivitäten, Kontaktwege, Social-Präsenz. Deshalb führt unser Utility-Score das Feld an: Die richtige Person mit leeren Feldern zurückzugeben ist nutzlos — und eine universelle Harness hat keinen Grund, Enrichment als eingebauten Schritt zu führen.
Das Modell in der Mitte tut, worin Modelle gut sind: Schlussfolgern, Ranken, Zusammenfassen, Urteilen. Die Harness erledigt alles andere. Nimm die Harness weg und du hast einen Chatbot. Nimm das Modell weg und du hast eine Suchpipeline. Setze beide zusammen und du hast einen vertikalen Harness Agent.
Was das für die Harness-Debatte bedeutet
Die spannendste These der Harness-Debatte 2026 lautet: Der Modellfortschritt auf statischen Benchmarks verlangsamt sich, aber die Agent-Performance ist noch weit offen — weil die meisten verbleibenden Gewinne in der Harness liegen. Meta-Harness hat das in der Programmierung gezeigt, indem es bessere Harnesses automatisch entdeckt hat. PeopleSearchBench zeigt es aus der anderen Richtung: Handgebaute, vertikale Harnesses können ein Frontier-Modell innerhalb einer universellen Harness deutlich schlagen — in Größenordnungen, die kein Modell-Upgrade mehr einholt.
Wenn das stimmt, folgt zweierlei.
Erstens: Jede kommerziell wertvolle Agent-Aufgabe wird ihre eigene Harness Agent bekommen.People Search ist eine davon. Juristische Recherche ist eine andere. Klinisches Reasoning, Finanzanalyse, Lieferketten-Investigation, wissenschaftliche Literaturrecherche — jede dieser Domänen hat Fehlermuster, die eine universelle Harness niemals optimieren wird, weil sie für alles gleichzeitig optimiert. Vertikale Harness Agents werden den Long Tail der Agent-Arbeit fressen, so wie SaaS den Long Tail der Software gefressen hat.
Zweitens: Die Benchmarks müssen nachziehen.SWE-bench und TerminalBench-2 sind großartig, aber sie messen nur einen Ausschnitt der Harness-Qualität. Wenn die Branche die Harness-These ernst nimmt, brauchen wir Harness-Benchmarks für jede Vertikale, die zählt. PeopleSearchBench ist unser Versuch, damit für People Search anzufangen. Datensatz, Evaluations-Pipeline und vollständige Ergebnisse sind Open Source.
Das Modell ist der Motor. Die Harness ist die Karosserie.Wir haben dieses Auto für eine einzige Straße gebaut. Wenn dein Job damit zu tun hat, Menschen zu finden — Kandidaten, Kunden, Investoren, Creator, Partner — probier das Auto aus:lessie.ai. Und wenn du sehen willst, wie wir genau einen Frontier-Modell-Coding-Agent in einer Aufgabe geschlagen haben, für die er nie gebaut wurde: der vollständige Benchmark und das Paper stehen hier.
2026 ist die Harness der Burggraben. Die Zahlen sagen es so.