En 2026, la frase más interesante en IA no habla de un nuevo modelo. Es una fórmula sobre la que Anthropic, Martin Fowler y media comunidad investigadora de IA convergieron en las últimas semanas:
Agent = Model + Harness.
Si has estado en AI Twitter últimamente, habrás visto la palabra harness por todas partes. Princeton lanzó HAL harness. HKUDS publicó OpenHarness en código abierto. Un nuevo paper de Meta-Harness mostró que reescribir automáticamente el harness alrededor de un modelo congelado puede subir la puntuación de TerminalBench-2 varios puntos sin tocar los pesos. Philipp Schmid llamó al agent harness “la herramienta principal para resolver el model drift en tareas largas”.
Pero hay algo que nadie dice en voz alta: en 2026, casi toda conversación sobre harness es sobre agentes de programación. Claude Code. SWE-bench. Tareas en terminal. Navegación de repositorios.
¿Y todo lo demás? ¿Qué pasa con el trabajo agentic que no toca un repositorio Git?
Somos Lessie, y construimos un Harness Agent para un solo trabajo: encontrar personas. Los reclutadores nos usan para encontrar candidatos. Los equipos de ventas, para encontrar a los que toman decisiones. Los VCs, para encontrar fundadores. Los marketers, para encontrar creadores. Por eso, cuando despegó la conversación sobre harness, queríamos saber algo concreto: ¿la tesis de “el harness importa más que el modelo” se sostiene fuera de la programación?
Así que construimos un benchmark y corrimos el experimento. El resultado es PeopleSearchBench, y el titular es este:
En 119 consultas reales de búsqueda de personas, Lessie sacó 65,2. Claude Code, sobre Sonnet 4.6, sacó 45,8. Una brecha del 42% — y lo único que cambió fue el harness.
Vamos a desmenuzar qué significa eso.
Qué es un Harness Agent, en cristiano
La definición más corta viene del equipo de OpenHarness: el modelo es el agente; el código es el harness. Una un poco más larga, de Parallel Web: un harness es el runtime que envuelve a un modelo, intercepta sus llamadas a herramientas, gestiona su contexto y lo mantiene enfocado en la tarea.
Martin Fowler lo enmarca como dos mitades que trabajan juntas.Guides: controles feed-forward que dan forma al comportamiento del agente antes de que actúe (system prompts, descripciones de herramientas, contexto recuperado, snapshots del entorno). Sensors: controles feedback que observan lo que el agente hizo y reinyectan correcciones (linters, validadores, bucles de verificación). Un buen harness combina ambos. Un mal harness es solo feed-forward y se queda mirando cómo el agente repite el mismo error en el turno 47.
Un Harness Agent, entonces, es el paquete completo: modelo + guides + sensors + herramientas + memoria + lógica de verificación. Lo que convierte la predicción cruda de tokens en algo capaz de terminar un trabajo de verdad.
Están emergiendo dos sabores:
- Harnesses generales como el Claude Agent SDK, OpenHarness o el harness dentro de Claude Code. Diseñados para no atarse a un dominio.
- Harnesses verticales construidos en torno a un único trabajo, con guides y sensors afinados para los modos de fallo de ese trabajo.
Casi todos los benchmarks de harness de los que has oído hablar — SWE-bench, TerminalBench-2, USACO, AppWorld — miden harnesses generales en tareas de programación. Que sepamos, PeopleSearchBench es el primer benchmark que pone a un Harness Agent vertical contra uno general en un trabajo que no es código.
Por qué la búsqueda de personas necesita su propio harness
Si alguna vez le has pedido a un agente de IA general “encuéntrame ingenieros senior de ML en startups Series B en Berlín que hayan lanzado productos LLM”, ya conoces los modos de fallo. Tres son particularmente tercos, y los tres son problemas de harness, no de modelo:
1. Resolución de entidades entre fuentes.Una persona real existe en LinkedIn, X, GitHub, charlas en conferencias, páginas corporativas y bases de datos académicas. Usan nombres distintos, fotos distintas, a veces hasta grafías distintas. Un harness general no tiene incorporada la idea de que “este perfil de LinkedIn y esta cuenta de GitHub son el mismo humano”. Un harness de búsqueda de personas tiene que resolverlo en cada consulta.
2. Bucles de verificación.Sin una capa de sensores, los agentes inventan personas con total seguridad. Te citan a un “Senior ML Engineer en Stripe Berlín” que no existe, porque los tokens son plausibles. La solución no es un modelo más listo: Sonnet 4.6 dentro de Claude Code lo sigue haciendo. La solución es un sensor: cada persona devuelta se verifica contra fuentes web en vivo antes de llegar al usuario.
3. Descomposición de consultas para atributos humanos. “Ingeniero ML en Berlín, Series B, que ha enviado productos LLM” no es una consulta. Es un checklist: rol + seniority + fase de empresa + ubicación + dominio + output reciente. Un harness general mete toda la frase en una caja de búsqueda. Un harness vertical la descompone en criterios, los corre en paralelo en las fuentes adecuadas, y luego reagrupa y rankea.
Esos tres son exactamente lo que Fowler llama guides y sensors. Solo que son guides y sensors que nadie se molesta en meter dentro de un harness general de programación, porque los harnesses de programación no los necesitan.
Las pruebas: PeopleSearchBench
Construimos PeopleSearchBench para probar esto con honestidad. La metodología completa está en el paper, pero la versión corta es:
- 119 consultas reales, sacadas de flujos reales de reclutamiento, ventas e investigación
- 4 idiomas (inglés, portugués, español, neerlandés)
- 4 escenarios: Reclutamiento (30), Prospección B2B (32), Experto / Determinístico (28), Influencer / KOL (29)
- 4 plataformas: Lessie (Harness Agent vertical), Exa (API de búsqueda estructurada), Juicebox / PeopleGPT (plataforma de reclutamiento con 800M+ perfiles), Claude Code (harness general sobre Sonnet 4.6)
- Tres dimensiones independientes: Relevance (padded nDCG@10), Coverage (task completion × yield), Utility (completitud de los datos del perfil)
- Verificación con búsqueda web en vivo, no a ojo del LLM: cada persona devuelta se contrasta contra LinkedIn, sitios corporativos y perfiles públicos. El agente verificador no sabe qué plataforma produjo qué resultado.
Los puntajes globales:
- Lessie: Global 65,2 | Relevance 70,2 | Coverage 69,1 | Utility 56,4
- Exa: Global 54,6 | Relevance 53,8 | Coverage 58,1 | Utility 53,1
- Claude Code: Global 45,8 | Relevance 54,3 | Coverage 41,1 | Utility 42,7
- Juicebox: Global 45,8 | Relevance 44,7 | Coverage 41,8 | Utility 50,9
Lessie es primera en cada dimensión. Es además la única plataforma que terminó las 119 consultas — un 100% de tasa de finalización. Las otras tres devolvieron cero resultados con frecuencia en búsquedas de nicho.
Pero el número que más importa para el debate sobre harness es la diferencia entre Lessie y Claude Code. Los dos son agentes de IA. Los dos pueden llamar herramientas. Los dos pueden buscar en la web. Claude Code corre sobre uno de los modelos más potentes del planeta. Y aun así perdió por 19,4 puntos en el global, con 28 puntos de brecha solo en Coverage.
Esos 19,4 puntos no son una brecha de modelo. Son una brecha de harness.
La mayor brecha en un único escenario fue en descubrimiento de Influencers / KOL: Lessie 62,3, Claude Code 43,2. La búsqueda de influencers es donde los harnesses generales se rompen más fuerte, porque la respuesta correcta vive simultáneamente en TikTok, Instagram, YouTube y X, y un harness general no sabe cómo fusionarlas. La brecha más estrecha fue en reclutamiento, donde tres plataformas pasaron de 64 — reclutamiento es la vertical de búsqueda de personas más madura, y la industria lleva años construyendo herramientas para ella.
El patrón es consistente: cuanto más exige un escenario fusionar fuentes y verificar, más importa el harness.
Lo que hay dentro del harness de Lessie
No vamos a publicar nuestros system prompts. Pero la arquitectura tiene tres capas que encajan limpiamente con el modelo guides-sensors, y vale la pena describirlas porque son más o menos lo que cualquier Harness Agent vertical necesita:
Capa 1 — Orquestación multi-fuente (guides).Cuando entra una consulta, el harness la enruta en paralelo por redes profesionales, plataformas sociales, bases de datos académicas y registros públicos. Cada fuente tiene su propia estrategia de recuperación. El modelo nunca ve el reparto crudo: ve un conjunto unificado de candidatos.
Capa 2 — Descomposición de criterios y verificación (sensors).Cada consulta se descompone en criterios explícitos — rol, seniority, ubicación, fase de empresa, señales — y cada candidato se verifica contra esos criterios mediante búsquedas web en vivo antes del paso de ranking. Es exactamente la misma metodología con la que PeopleSearchBench nos puntúa, y no es casualidad: construimos el harness alrededor de los modos de fallo que mide el benchmark.
Capa 3 — Enriquecimiento de perfil.Una vez que la persona pasa la verificación, el harness va a por datos estructurados de perfil: rol actual, actividad reciente, vías de contacto, presencia social. Por eso nuestra puntuación de Utility lidera el campo: devolver a la persona correcta con los campos vacíos no sirve, y un harness general no tiene motivos para incluir el enriquecimiento como paso por defecto.
El modelo en el medio hace lo que los modelos hacen bien: razonar, rankear, resumir, juzgar. El harness hace todo lo demás. Quita el harness y te queda un chatbot. Quita el modelo y te queda un pipeline de búsqueda. Junta los dos y tienes un Harness Agent vertical.
Qué significa esto para el debate sobre harness
La afirmación interesante que sale de la conversación sobre harness en 2026 es que el progreso de los modelos en benchmarks estáticos se está ralentizando, pero la performance agentic sigue muy abierta, porque la mayoría de las ganancias que quedan viven en el harness. Meta-Harness lo demostró descubriendo automáticamente mejores harnesses para programación. PeopleSearchBench lo muestra desde el otro lado: harnesses verticales hechos a mano pueden ganarle a un modelo frontera dentro de un harness general por márgenes que ninguna actualización de modelo va a cerrar.
Si eso es cierto, dos cosas se siguen.
Primero, cada trabajo agentic de valor comercial va a tener su propio Harness Agent.La búsqueda de personas es uno. La investigación legal, otro. Razonamiento clínico, análisis financiero, investigación de cadenas de suministro, revisión científica — cada uno de estos tiene modos de fallo que un harness general nunca optimizará, porque está optimizando para todo a la vez. Los Harness Agents verticales van a comerse la cola larga del trabajo agentic igual que SaaS se comió la cola larga del software.
Segundo, los benchmarks tienen que seguir el ritmo.SWE-bench y TerminalBench-2 son geniales, pero miden una sola tajada de la calidad del harness. Si el campo se toma en serio la tesis del harness, hace falta un benchmark de harness para cada vertical que importe. PeopleSearchBench es nuestro intento de empezar eso para la búsqueda de personas. El dataset, el pipeline de evaluación y los resultados completos son código abierto.
El modelo es el motor. El harness es el coche.Nosotros construimos este coche para una sola carretera. Si tu trabajo tiene que ver con encontrar personas — candidatos, clientes, inversores, creadores, partners — prueba el coche:lessie.ai. Y si quieres ver exactamente cómo le ganamos a un agente de programación con modelo frontera en algo para lo que nunca fue construido, el benchmark completo y el paper están aquí.
En 2026, el harness es el foso. Los números lo dicen.