Was ist eine Agent Harness? Ein verständlicher Leitfaden mit einem echten People-Search-Beispiel

4Marktsegmente für Harnesses

$0.10Preis pro Agentforce-Aktion

3Kern-Verantwortlichkeiten einer Harness

2026Jahr der Harness

Wer 2026 etwas Zeit auf AI-Twitter verbracht hat, ist \u00FCberall \u00FCber dasselbe Wort gestolpert: Harness. Anthropic benutzt es. Salesforce hat eine eigene Produktseite darum gebaut. Princeton hat ein Forschungsprojekt namens HAL Harness ver\u00F6ffentlicht. Martin Fowler hat einen langen Essay \u00FCber Harness-Engineering f\u00FCr Coding-Agenten geschrieben. Und die Formel, die alle wiederholen, ist dieselbe:

Agent = Model + Harness.

Was also ist eine Agent Harness genau, wer baut sie, was kosten sie, und wie sieht so eine Harness in der Produktion wirklich aus? Dieser Leitfaden beantwortet all diese Fragen und zeigt dann anhand eines echten Beispiels, wie die People-Search-Agent-Harness von Lessie’s aus einer vagen, mehrkriteriellen Anfrage die richtige Person findet.

Was ist eine Agent Harness?

Eine Agent Harness ist die Software-Infrastruktur, die sich um ein KI-Modell legt und alles verwaltet, was das Modell selbst nicht managen kann — Tools, Ged\u00E4chtnis, Kontext, Sicherheitspr\u00FCfungen, Fehlerbehebung und den gesamten Lifecycle einer Aufgabe. Das Modell ist das Gehirn. Die Harness ist der K\u00F6rper, das Nervensystem und die Umgebung, in der das Gehirn arbeitet.

Die k\u00FCrzeste Definition stammt vom OpenHarness-Projekt der HKUDS: Das Modell ist der Agent, und der Code ist die Harness. Eine etwas l\u00E4ngere aus den eigenen Engineering-Posts von Anthropic: Eine Harness ist alles an einem Agenten au\u00DFer dem Modell selbst.

Warum ist diese Unterscheidung wichtig? Weil die KI-Branche 2025 davon ausging, dass bessere Modelle jedes Problem l\u00F6sen w\u00FCrden. Bis 2026 wurde klar, dass selbst das st\u00E4rkste Frontier-Modell — ohne Scaffolding drumherum — bei langen, mehrstufigen Aufgaben in der realen Welt scheitert. Es halluziniert Tool-Aufrufe. Es verliert das urspr\u00FCngliche Ziel nach f\u00FCnfzig Runden aus den Augen. Es wiederholt denselben Fehler in Runde 47, weil ihm niemand gesagt hat, dass der Fehler \u00FCberhaupt passiert ist. Die L\u00F6sung f\u00FCr diese Fehler ist kein gr\u00F6\u00DFeres Modell. Die L\u00F6sung ist eine Agent Harness.

Was ist eine KI-Agent-Harness in einfachen Worten?

Wenn „Agent Harness“ immer noch abstrakt klingt, hier eine n\u00FCtzliche Analogie. Stell dir das KI-Modell als brillante neue Mitarbeiterin am ersten Arbeitstag vor. Sie ist klug, belesen und kann \u00FCber fast alles nachdenken. Aber sie wei\u00DF nicht, wo das Bad ist, sie hat keinen Zugang zu den Tools der Firma, sie erinnert sich nicht daran, was im gestrigen Meeting passiert ist, und wenn sie etwas vermasselt, wird niemand es auffangen, bevor es beim Kunden landet.

Eine KI-Agent-Harness ist das B\u00FCro rund um diese neue Mitarbeiterin. Sie ist der Ausweis, der sie in die richtigen R\u00E4ume l\u00E4sst, das Laptop mit der richtigen Software, der Kalender, der sie daran erinnert, was sie heute tun soll, der Manager, der ihre Arbeit \u00FCberpr\u00FCft, bevor sie hinausgeht, und das Playbook, das ihr sagt, was zu tun ist, wenn etwas kaputtgeht.

Wenn also jemand fragt „was ist eine KI-Agent-Harness“, lautet die sauberste Antwort: Eine KI-Agent-Harness ist die operative Infrastruktur, die aus einem rohen Sprachmodell einen zuverl\u00E4ssigen Arbeiter macht, der echte Jobs ohne st\u00E4ndige Aufsicht erledigen kann. Ohne die Harness hast du einen Chatbot. Mit der Harness hast du einen Agenten.

Was ist eine Agent Harness in der KI? Die drei Dinge, die sie wirklich tut

Wenn man sich anschaut, wie jede ernstzunehmende Agent Harness in der KI gebaut ist —Anthropics Claude Agent SDK, Salesforces Agentforce-Harness, Princetons HAL Harness, das Open-Source-Projekt OpenHarness und vertikale Harnesses wie Lessie — tun sie alle ungef\u00E4hr drei Dinge. Wer diese drei Verantwortlichkeiten versteht, versteht 90 % dessen, was eine Agent Harness macht.

Die erste Verantwortlichkeit ist Context Engineering. Ein Modell hat ein endliches Kontextfenster, und bei jeder langen Aufgabe f\u00FCllt sich dieses Fenster schnell mit Logs, Tool-Outputs, Zwischenergebnissen und fr\u00FCheren Runden. Die Harness entscheidet, was bleibt, was zusammengefasst wird, was frisch abgerufen wird und was weggeworfen wird. Ohne Context Engineering leiden Agenten unter dem, was Forscher Context Rot nennen— das urspr\u00FCngliche Ziel wird unter Rauschen begraben, und der Agent beginnt, von der Aufgabe abzudriften.

Die zweite Verantwortlichkeit ist Tool-Orchestrierung mit Guardrails. Ein Agent muss Tools nutzen — Suche, Datenbanken, APIs, Dateisysteme, andere Agenten—, aber rohe Modell-Outputs sind nicht-deterministisch und erzeugen routinem\u00E4\u00DFig fehlerhafte Tool-Aufrufe, falsche Parameter oder erfundene Funktionsnamen, die gar nicht existieren. Die Harness sitzt zwischen Modell und Tools, validiert jeden Aufruf, bevor er ausgef\u00FChrt wird, sandboxt gef\u00E4hrliche Operationen und liefert saubere, strukturierte Ergebnisse an das Modell zur\u00FCck. Das ist der Unterschied zwischen einem Agenten, der einmal in einer Demo funktioniert, und einem Agenten, der zehntausendmal in der Produktion funktioniert.

Die dritte Verantwortlichkeit ist Lifecycle- und State-Management.Lang laufende Agent-Aufgaben k\u00F6nnen Minuten, Stunden oder Tage dauern. Modelle sind standardm\u00E4\u00DFig zustandslos — jeder Aufruf beginnt bei null. Die Harness gibt dem Agenten Persistenz: Sie speichert Checkpoints, erholt sich von Abst\u00FCrzen, wiederholt fehlgeschlagene Schritte und sorgt daf\u00FCr, dass eine Aufgabe \u00FCber Sessions hinweg \u00FCberlebt. Sie handhabt auch Human-in-the-Loop-Interrupts, pausiert den Agenten, wenn eine wichtige Entscheidung menschliche Freigabe braucht, bevor es weitergeht.

Diese drei Verantwortlichkeiten — Kontext, Tools, Lifecycle — sind die tragenden W\u00E4nde jeder Agent Harness. Verschiedene Produkte setzen sie unterschiedlich um, aber fehlt auch nur eine der drei, scheitert der Agent irgendwann in der Produktion.

Wof\u00FCr wird eine Agent Harness verwendet? Echte Production-Use-Cases

Agent Harnesses tauchen \u00FCberall dort auf, wo jemand versucht, einen KI-Agenten in einen echten Workflow zu bringen statt in einen einmaligen Chat. Die drei gr\u00F6\u00DFten Kategorien sind Coding, Enterprise-Automatisierung und vertikale Wissensarbeit.

Beim Coding ist die sichtbarste Agent Harness die innerhalb von Claude Code, Anthropics terminalbasiertem Coding-Agent. Claude Code ist im Wesentlichen ein Modell plus eine sorgf\u00E4ltig entworfene Harness, die ihm Tools zum Lesen von Dateien, Ausf\u00FChren von Shell-Befehlen, Navigieren in Repositories und Pflegen eines Fortschrittslogs \u00FCber Sessions hinweg gibt. SWE-bench und TerminalBench-2 sind die beiden wichtigsten Benchmarks, mit denen das Feld Coding-Harnesses vergleicht.

In der Enterprise-Automatisierung ist die dominante Harness Salesforce Agentforce, die ein Modell in eine Laufzeitumgebung packt, die f\u00FCr CRM-Workflows gebaut ist— Datens\u00E4tze aktualisieren, Mails verschicken, Termine planen, F\u00E4lle zusammenfassen und Anfragen \u00FCber mehrere Spezial-Agenten routen. Agentforce vermarktet sich explizit als Harness-Ebene f\u00FCr den Enterprise-KI-Einsatz.

In der vertikalen Wissensarbeit tauchen Harnesses f\u00FCr spezielle hochwertige Aufgaben auf: juristische Recherche, klinisches Reasoning, Finanzanalyse und People Search. Diese vertikalen Harnesses sind im Umfang meist viel kleiner als allgemeine Harnesses, aber viel tiefer — sie sind speziell auf die Fehlermuster eines einzigen Jobs abgestimmt. Lessie ist ein Beispiel f\u00FCr diese Kategorie: eine vertikale Agent Harness, die um die einzelne Aufgabe gebaut ist, die richtige Person \u00FCber professionelle Netzwerke, Social-Plattformen und akademische Datenbanken zu finden.

Harness AI DevOps Agent: Der Salesforce-Blickwinkel

Eine spezielle Formulierung, die 2026 an Bedeutung gewonnen hat, ist Harness AI DevOps Agent — und sie bezieht sich fast immer auf den Salesforce- Agentforce-Ansatz f\u00FCr KI-Operationen. In diesem Rahmen wird die Agent Harness als DevOps-Infrastruktur behandelt, nicht als Forschungsartefakt. Sie ist etwas, das man bereitstellt, versioniert, \u00FCberwacht und bezahlt, genauso wie man eine Datenbank oder ein Kubernetes-Cluster bereitstellt.

Salesforces Positionierung ist, dass die Agent Harness die fehlende Schicht zwischen Modell und Business-Workflow ist. Ihr Argument lautet ungef\u00E4hr so: Unternehmen haben Zugang zu reichlich Frontier-Modellen, aber sie haben keinen zuverl\u00E4ssigen Weg, diese Modelle in Produktions-Workflows zu bringen, die echte Kundendaten, echten Umsatz und echte Compliance-Anforderungen ber\u00FChren. Die Harness ist das, was diesen Einsatz sicher und operativ machbar macht. Sie erzwingt Berechtigungen, protokolliert jede Aktion f\u00FCr das Auditing, verwaltet den Kontext \u00FCber lange Aufgaben hinweg und liefert Human-in-the-Loop-Interrupts f\u00FCr kritische Operationen.

Dieses DevOps-Framing ist auch der Grund, warum Salesforce Geld f\u00FCr die Harness verlangt, statt sie zu verschenken. Damit sind wir bei der Frage, die die meisten Leser wirklich beantwortet haben wollen.

Wer baut Agent Harnesses? Unternehmen und Preise

Der Agent-Harness-Markt im Jahr 2026 teilt sich grob in vier Gruppen: kommerzielle Enterprise-Harnesses, developer-orientierte kommerzielle Harnesses, Open-Source-Research- Harnesses und vertikale kommerzielle Harnesses. Hier ein \u00DCberblick \u00FCber die wichtigsten Player und was sie kosten.

Salesforce Agentforce ist die kommerziell aggressivste Agent Harness am Markt. Salesforce bietet mehrere Preismodelle. Der kostenlose Einstieg ist Salesforce Foundations, das eine kleine Menge an Credits zum Testen bereitstellt. Dar\u00FCber hinaus gibt es zwei Hauptverbrauchsmodelle: ein Per-Conversation-Modell f\u00FCr 2 $ pro Konversation (definiert als jede Interaktion innerhalb eines 24-Stunden-Fensters) und das neuere Flex-Credits-Modell, bei dem jede Aktion 20 Credits verbraucht, ungef\u00E4hr 0,10 $ pro Aktion, mit Credit-Paketen zu 500 $ f\u00FCr 100.000 Credits. F\u00FCr planbare Budgets bietet Salesforce auch Per-User-Add-ons ab 125 $ pro User und Monat f\u00FCr Standard-Editionen und 150 $ pro User und Monat f\u00FCr regulierte Branchen wie Finanzdienstleistungen und Gesundheitswesen. Gro\u00DFe Enterprises k\u00F6nnen die Agentforce 1 Edition kaufen, eine unbegrenzt nutzbare Stufe, die bei 550 $ pro User und Monat startet. Reale Deployments bei Mid-Market-Unternehmen liegen typischerweise zwischen 15.000 und 50.000 $ pro Jahr allein f\u00FCr Agentforce, ohne die oft notwendigen Data-Cloud-Infrastrukturkosten mitzuz\u00E4hlen, die die Harness-Lizenz h\u00E4ufig \u00FCbersteigen.

Anthropics Claude Agent SDK ist eine developer-orientierte Harness, die als Teil der Claude-API ausgeliefert wird. Es gibt keine separate Lizenzgeb\u00FChr — du zahlst f\u00FCr Modell-Tokens, und die Harness kommt gratis dazu. Es gelten die Preise der Sonnet- und Opus-Stufen. Claude Code, die konsumentennahe Harness auf derselben Grundlage, ist in den Claude-Pro- und Claude-Max-Abos enthalten. Das kommt einer„universellen“ Agent Harness f\u00FCr Entwickler am n\u00E4chsten und treibt einen gro\u00DFen Teil des Coding-Agent-\u00D6kosystems an.

LangChain und LangGraph sitzen in einer etwas anderen Position. Die Open-Source-Bibliotheken sind kostenlos, aber die gehostete Laufzeit- und Observability- Plattform (LangSmith) wird pro Trace berechnet, mit einer kostenlosen Stufe und bezahlten Pl\u00E4nen ab etwa 39 $ pro User und Monat f\u00FCr Teams. Viele Unternehmen verwenden LangGraph als Harness-Ebene unter ihren eigenen, individuellen Agenten.

Open-Source-Research-Harnesses umfassen Princetons HAL Harness (kostenlos, f\u00FCr Benchmark-Evaluierung entworfen), HKUDS OpenHarness (kostenlos, MIT-Lizenz, als inspizierbare Referenzimplementierung gedacht) und EleutherAIs lm-evaluation-harness (kostenlos, f\u00FCr Modell-Benchmarking statt Agent-Deployment). Das sind die Harnesses, zu denen man greift, wenn man verstehen will, wie die Architektur unter der Haube funktioniert oder wenn man seine eigene bauen m\u00F6chte.

Vertikale Harnesses sind die neueste Kategorie. Lessie ist eine vertikale Agent Harness f\u00FCr People Search, mit Preisen, die kostenlos starten und nach Such-Credits skalieren — n\u00E4her an einem SaaS-Produkt als an Enterprise-Infrastrukturpreisen. Weitere vertikale Harnesses beginnen in juristischer Recherche, klinischer Entscheidungsunterst\u00FCtzung und Finanzanalyse aufzutauchen, typischerweise als SaaS-Abonnements statt als Per-Action-Konsum bepreist.

Das Spannende an dieser Landschaft ist die Preisspreizung. Eine Research-Harness kostet nichts. Eine Developer-Harness von Anthropic kostet so viel wie deine Modell-Tokens. Eine kommerzielle Enterprise-Harness von Salesforce kann einem mittelgro\u00DFen Unternehmen Zehntausende Dollar im Monat kosten. Und eine vertikale Harness wie Lessie kostet ungef\u00E4hr so viel wie ein SaaS-Tool, weil sie einen Job l\u00F6st, statt Infrastruktur f\u00FCr alles sein zu wollen. Es gibt keinen einzigen „richtigen“ Preis f\u00FCr eine Agent Harness— es h\u00E4ngt ganz davon ab, ob du f\u00FCr ein Forschungsartefakt, einen Developer-Baustein, eine Enterprise-Plattform oder ein fertiges vertikales Produkt zahlst.

Ein echtes Beispiel: Wie die Agent Harness von Lessie die richtige Person findet

Definitionen und Preistabellen bringen nur begrenzt Erkenntnis. Am klarsten versteht man, was eine Agent Harness wirklich tut, wenn man ihr bei einer echten Anfrage zuschaut. Hier ist also ein Walk-Through durch eine einzelne People-Search-Aufgabe, von Anfang bis Ende, mit jeder Harness-Komponente, die genannt wird, wenn sie aktiviert wird.

Die Anfrage ist eine der schwierigeren aus dem PeopleSearchBench-Datensatz:

„Finde mir Senior Machine Learning Engineers bei Series-B-Startups in Berlin, die im letzten Jahr LLM-Produkte ausgeliefert haben und eine \u00F6ffentliche technische Schreibpr\u00E4senz haben.“

Ein naiver Ansatz w\u00FCrde diesen ganzen Satz in eine Suchmaschine stopfen und auf das Beste hoffen. Das scheitert aus offensichtlichen Gr\u00FCnden: Es gibt keine einzelne Quelle im Internet, die „Senior ML Engineer + Series B + Berlin + LLM-Produkt ausgeliefert + schreibt \u00F6ffentlich“ indexiert. Die Informationen leben an f\u00FCnf verschiedenen Orten, und irgendjemand — oder irgendetwas — muss sie fusionieren. Hier verdient sich die Harness ihren Platz.

Schritt 1 — Query-Zerlegung (Context-Engineering-Schicht). Die Lessie-Harness \u00FCbergibt den rohen Satz nicht an das Modell. Sie zerlegt die Anfrage zuerst in explizite, pr\u00FCfbare Kriterien: Rolle = ML Engineer, Seniorit\u00E4t = Senior, Unternehmensphase = Series B, Standort = Berlin, j\u00FCngster Output = LLM-Produkt innerhalb von 12 Monaten ausgeliefert, \u00F6ffentlicher Footprint = technisches Schreiben vorhanden. Jedes Kriterium wird zu einem Verifikations-Pr\u00E4dikat, das nachgelagerte Schritte unabh\u00E4ngig pr\u00FCfen. Diese Zerlegung ist dieselbe Methodik, mit der PeopleSearchBench Suchplattformen bewertet, und sie ist der Unterschied zwischen einer Anfrage, die„Senior-Leute in Berlin“ liefert, und einer Anfrage, die die richtigen sechs Menschen liefert.

Schritt 2 — Multi-Source-Orchestrierung (Tool-Schicht). Die Harness verteilt die zerlegte Anfrage parallel auf die Quellen, in denen jedes Kriterium wirklich lebt. Professionelle Netzwerke f\u00FCr aktuelle Rolle und Seniorit\u00E4t. Startup-Datenbanken und Funding-Ank\u00FCndigungen f\u00FCr die Unternehmensphase. Geografische Signale \u00FCber mehrere Quellen f\u00FCr den Standort. GitHub, Produkt-Launch-Seiten und Changelog-Erw\u00E4hnungen f\u00FCr ausgelieferte LLM-Produkte. Pers\u00F6nliche Blogs, Substack, dev.to und Konferenzvortrag-Listings f\u00FCr technische Schreibpr\u00E4senz. Das Modell sieht die rohe Verteilung nie — die Harness handhabt die Parallelit\u00E4t, wiederholt gescheiterte Quellen und setzt eine vereinheitlichte Kandidatenmenge zusammen.

Schritt 3 — Verifikationsschleife (Sensor-Schicht). Das ist der Schritt, den die meisten allgemeinen Agenten \u00FCberspringen, und der Grund, warum die meisten allgemeinen Agenten Menschen halluzinieren, die nicht existieren. F\u00FCr jeden Kandidaten, den die Orchestrierungsschicht liefert, f\u00FChrt die Harness einen Live-Webverifikationsdurchlauf aus: Sie pr\u00FCft jedes Kriterium gegen frische Quellen, bevor der Kandidat in das Ergebnis aufgenommen wird. Wenn die Harness nicht unabh\u00E4ngig verifizieren kann, dass „Anna Schmidt“ tats\u00E4chlich bei einem Series-B-Unternehmen in Berlin ist, taucht Anna Schmidt im Output nicht auf. Das ist genau die Guardrail-Schicht, die Salesforce in seiner Agentforce-Dokumentation beschreibt, nur spezialisiert auf die spezifischen Fehlermuster der People Search.

Schritt 4 — Profile Enrichment (Tool-Schicht, zweiter Durchgang).Sobald ein Kandidat die Verifikation besteht, zieht die Harness strukturierte Profildaten nach: aktuelle Rolle und Verweildauer, j\u00FCngste Aktivit\u00E4ten, Publikations-Links, Kontaktwege, Social-Pr\u00E4senz. Deshalb f\u00FChrt Lessie die Utility-Dimension im PeopleSearchBench an — die richtige Person mit leeren Feldern zur\u00FCckzugeben, ist nicht wirklich n\u00FCtzlich, und eine allgemeine Harness hat keinen eingebauten Grund, Enrichment als separaten Schritt zu f\u00FChren.

Schritt 5 — Ranking und Pr\u00E4sentation (Modell-Schicht). Erst ganz am Ende tut das Modell, worin Modelle einzigartig gut sind: Es liest die verifizierte, angereicherte Kandidatenmenge und rankt sie nach Gesamtpassung zur urspr\u00FCnglichen Anfrage. Das Modell trifft eine Werturteils-Entscheidung, aber es trifft sie auf Basis eines sauberen, verifizierten, strukturierten Inputs — nicht auf Basis eines verrauschten rohen Web-Dumps.

Die gesamte Sequenz l\u00E4uft autonom ab. Aus Sicht des Nutzers hat er einen Satz getippt und sechs echte Menschen mit echten Profilen und echten Belegen bekommen, warum jeder einzelne passt. Aus Sicht der Harness hat dieser eine Satz Query-Zerlegung, parallele Multi-Source-Retrieval, Dutzende Verifikationsaufrufe, Profil-Enrichment und einen finalen Ranking-Durchlauf ausgel\u00F6st — alles koordiniert, alles fehlergehandhabt, alles geloggt.

So sieht eine Agent Harness in der KI wirklich aus, wenn sie ihren Job macht. Das Modell leistet vielleicht 20 % der sichtbaren Arbeit. Die Harness leistet die anderen 80 %, und diese 80 % sind der Unterschied zwischen einem Agenten, der in einer Demo funktioniert, und einem Agenten, der bei der 119. Anfrage am St\u00FCck nicht zusammenbricht.

Was wird „Agent Harness“ 2026 und danach bedeuten?

Das Interessanteste an der Harness-Debatte im Jahr 2026 ist, dass sie die \u00FCbliche KI-Erz\u00E4hlung auf den Kopf gestellt hat. Drei Jahre lang ging es in jedem Gespr\u00E4ch \u00FCber KI-Fortschritt um Modellgr\u00F6\u00DFe, Modelltraining und Modell-Benchmarks. Die unausgesprochene Annahme war, dass das n\u00E4chste Modell alles l\u00F6sen w\u00FCrde, was am aktuellen kaputt ist.

Die Harness-These sagt das Gegenteil: Der Modellfortschritt ist real, aber verlangsamt sich, und die verbleibenden Gewinne bei der Agent-Zuverl\u00E4ssigkeit liegen in der Infrastruktur rund um das Modell. Salesforce macht diesen Punkt in seiner Preispr\u00E4sentation. Anthropic macht ihn in seiner Claude-Agent-SDK-Dokumentation. Princeton macht ihn mit HAL Harness als Forschungsplattform. Das Meta-Harness-Paper vom M\u00E4rz 2026 hat ihn empirisch belegt, indem es zeigte, dass das automatische Umschreiben der Harness um ein eingefrorenes Modell Coding-Benchmark-Werte um mehrere Punkte heben kann, ohne die Gewichte anzur\u00FChren.

Wenn die These stimmt, folgt zweierlei. Erstens wird jede kommerziell wertvolle Agent-Aufgabe irgendwann ihre eigene spezialisierte Harness bekommen. Coding hat bereits eine. CRM-Automatisierung hat eine. People Search hat eine. Juristische Recherche, klinisches Reasoning, Finanzanalyse und Supply-Chain-Untersuchung werden ihre bekommen. Die horizontalen Player wie Salesforce werden die cross-funktionale Enterprise-Ebene dominieren, und vertikale Player wie Lessie werden die spezifischen Jobs dominieren, deren Fehlermuster eine allgemeine Harness nie optimieren wird. Zweitens werden Benchmarks f\u00FCr Agent Harnesses wichtiger werden als Benchmarks f\u00FCr rohe Modelle. PeopleSearchBench ist ein fr\u00FChes Beispiel. Es werden viele weitere folgen.

Das Modell ist der Motor. Die Harness ist die Karosserie. 2026 fangen die Autos an, mehr zu z\u00E4hlen als die Motoren.

Wer eine vertikale Agent Harness bei dem Job in Aktion sehen will, f\u00FCr den sie gebaut wurde, probiert Lessie unter lessie.ai aus. Und wer die vollst\u00E4ndige Benchmark-Methodik hinter dem obigen People-Search-Beispiel will: Der PeopleSearchBench-Datensatz und das Paper sind Open Source unter lessie.ai/benchmark.

Die Harness ist der Burggraben. Die Daten — und die Preisschilder— sagen es bereits.

FAQ

Was ist eine Agent Harness in einem Satz?

Eine Agent Harness ist die Software-Infrastruktur rund um ein KI-Modell, die seine Tools, sein Gedächtnis, seinen Kontext, seine Sicherheit und seinen Lifecycle verwaltet und ein zustandsloses Sprachmodell in einen zuverlässigen autonomen Arbeiter verwandelt.

Was ist eine KI-Agent-Harness und wie unterscheidet sie sich von einem Agent-Framework?

Ein Agent-Framework wie LangChain oder LangGraph ist die Bibliothek, mit der du die Logik eines Agenten entwirfst. Eine KI-Agent-Harness ist die Laufzeitumgebung, die diesen Agenten in der Produktion tatsächlich ausführt — sie verwaltet den State, behandelt Fehler, erzwingt Sicherheit und persistiert den Fortschritt. Das Framework ist der Bauplan; die Harness ist das Gebäude, in dem der Agent arbeitet.

Wofür wird eine Agent Harness in der KI verwendet?

Die häufigsten Anwendungen sind Coding-Agenten (Claude Code), Enterprise-Workflow-Automatisierung (Salesforce Agentforce), KI-Evaluierung (Princeton HAL Harness) und vertikale Wissensarbeit wie People Search (Lessie). Überall, wo ein Agent einen echten Job zu Ende bringen soll statt eine einzelne Chat-Nachricht zu beantworten, ist eine Harness im Spiel.

Wie sieht die Preisgestaltung für KI-Agent-Harnesses typischerweise aus?

Sie variiert dramatisch. Open-Source-Research-Harnesses sind kostenlos. Anthropics Claude Agent SDK ist in den Modell-Token-Preisen enthalten. Salesforce Agentforce berechnet ungefähr 0,10 $ pro Aktion über Flex Credits, 2 $ pro Konversation oder 125–550 $ pro User und Monat für unbegrenzt nutzbare Editionen. Vertikale Harnesses wie Lessie sind als SaaS bepreist, typischerweise mit einer kostenlosen Stufe und credit-basierter Skalierung.

Wie wird eine Agent Harness in fünf Jahren aussehen?

Der aktuelle Konsens ist, dass Agent Harnesses so fundamental für den KI-Einsatz werden wie Datenbanken für Web-Anwendungen — unsichtbare Infrastruktur, auf die sich alle verlassen, an die aber niemand denkt, bis sie kaputtgeht. Vertikale Harnesses für spezifische Jobs werden wahrscheinlich die allgemeinen übertreffen, denn die tiefsten Harness-Optimierungen kommen davon, schmal zu sein.

Was ist eine Agent Harness? Ein verst\u00E4ndlicher Leitfaden mit einem echten People-Search-Beispiel