¿Qué es un agent harness? Una guía en cristiano con un ejemplo real de búsqueda de personas

4Segmentos del mercado de harness

0,10 $Precio por acción de Agentforce

3Responsabilidades centrales del harness

2026El año del harness

Si has pasado algo de tiempo en AI Twitter en 2026, habrás visto la misma palabra por todas partes: harness. Anthropic la usa. Salesforce ha construido toda una página de producto alrededor de ella. Princeton lanzó un proyecto de investigación llamado HAL harness. Martin Fowler escribió un ensayo largo sobre ingeniería de harness para agentes de programación. Y la fórmula que todo el mundo repite es la misma:

Agent = Model + Harness.

Entonces, ¿qué es exactamente un agent harness, quién los construye, cuánto cuestan y cómo se ve uno en producción? Esta guía responde a todas esas preguntas y luego recorre un ejemplo real de cómo el harness de búsqueda de personas de Lessie encuentra a la persona correcta a partir de una consulta vaga y multi-criterio.

¿Qué es un agent harness?

Un agent harness es la infraestructura de software que envuelve a un modelo de IA para gestionar todo lo que el modelo no puede gestionar por sí solo — herramientas, memoria, contexto, controles de seguridad, recuperación de errores y todo el ciclo de vida de una tarea. El modelo es el cerebro. El harness es el cuerpo, el sistema nervioso y el entorno en el que opera el cerebro.

La definición más corta viene del proyecto OpenHarness de HKUDS: el modelo es el agente y el código es el harness. Una un poco más larga, de los propios posts de ingeniería de Anthropic: un harness es todo lo que hay en un agente excepto el modelo mismo.

¿Por qué importa esta distinción? Porque en 2025, la industria de la IA asumió que los mejores modelos resolverían cualquier problema. En 2026, quedó claro que incluso el modelo frontera más potente — corriendo sin ningún andamiaje a su alrededor — falla en tareas largas, multi-paso y del mundo real. Alucina llamadas a herramientas. Pierde de vista el objetivo original después de cincuenta turnos. Repite el mismo error en el turno 47 porque nada le dijo que el error ocurrió. La solución a estos fallos no es un modelo más grande. La solución es un agent harness.

¿Qué es un AI agent harness, en cristiano?

Si “agent harness” todavía suena abstracto, aquí va una analogía útil. Imagina al modelo de IA como un recién contratado brillante en su primer día. Es listo, leído y capaz de razonar sobre casi cualquier cosa. Pero no sabe dónde está el baño, no tiene acceso a las herramientas de la empresa, no recuerda lo que pasó en la reunión de ayer y, si mete la pata, nadie lo va a pillar antes de que llegue al cliente.

Un AI agent harness es la oficina alrededor de ese recién contratado. Es la tarjeta que le da acceso a las salas correctas, el portátil con el software adecuado instalado, el calendario que le recuerda lo que tiene que hacer hoy, el manager que revisa su trabajo antes de que salga y el manual que le dice qué hacer cuando algo se rompe.

Así que cuando alguien pregunta “qué es un AI agent harness”, la respuesta más limpia es esta: un AI agent harness es la infraestructura operativa que convierte a un modelo de lenguaje en bruto en un trabajador fiable capaz de terminar trabajos reales sin supervisión constante. Sin el harness, tienes un chatbot. Con el harness, tienes un agente.

¿Qué es un agent harness en IA? Las tres cosas que realmente hace

Cuando miras cómo está construido cualquier agent harness serio en IA — el Claude Agent SDK de Anthropic, el harness de Agentforce de Salesforce, el HAL harness de Princeton, el proyecto open-source OpenHarness y harnesses verticales como Lessie — todos hacen aproximadamente tres cosas. Si entiendes estas tres responsabilidades, entiendes el 90% de lo que hace un agent harness.

La primera responsabilidad es la ingeniería de contexto. Un modelo tiene una ventana de contexto finita, y en cualquier tarea larga esa ventana se llena rápido con logs, salidas de herramientas, razonamiento intermedio y turnos previos. El harness decide qué se queda, qué se resume, qué se recupera fresco y qué se tira. Sin ingeniería de contexto, los agentes sufren lo que los investigadores llaman context rot — el objetivo original queda enterrado bajo el ruido y el agente empieza a desviarse de la tarea.

La segunda responsabilidad es la orquestación de herramientas con guardarraíles. Un agente necesita usar herramientas — búsqueda, bases de datos, APIs, sistemas de archivos, otros agentes — pero las salidas crudas del modelo son no deterministas y con frecuencia producen llamadas a herramientas malformadas, parámetros incorrectos o nombres de funciones inventados que no existen. El harness se coloca entre el modelo y las herramientas, validando cada llamada antes de que se ejecute, aislando operaciones peligrosas en un sandbox y devolviendo resultados estructurados y limpios al modelo. Esta es la diferencia entre un agente que funciona una vez en una demo y un agente que funciona diez mil veces en producción.

La tercera responsabilidad es la gestión del ciclo de vida y del estado. Las tareas agentic de larga duración pueden llevar minutos, horas o días. Los modelos son sin estado por defecto — cada llamada empieza desde cero. El harness le da persistencia al agente: guarda checkpoints, se recupera de fallos, reintenta pasos fallidos y permite que una tarea sobreviva entre sesiones. También gestiona interrupciones con humano en el bucle, pausando al agente cuando una decisión de alto impacto necesita aprobación humana antes de continuar.

Estas tres responsabilidades — contexto, herramientas, ciclo de vida — son los muros de carga de todo agent harness. Productos distintos las implementan de formas distintas, pero si falta cualquiera de las tres, el agente acabará fallando en producción.

¿Para qué se usa un agent harness? Casos de uso reales en producción

Los agent harnesses aparecen allí donde alguien intenta desplegar un agente de IA en un flujo de trabajo real en lugar de en un chat puntual. Las tres categorías más grandes son programación, automatización empresarial y trabajo vertical del conocimiento.

En programación, el agent harness más visible es el que hay dentro de Claude Code, el agente de programación en terminal de Anthropic. Claude Code es esencialmente un modelo más un harness cuidadosamente diseñado que le da herramientas para leer archivos, ejecutar comandos de shell, navegar por repositorios y mantener un log de progreso entre sesiones. SWE-bench y TerminalBench-2 son los dos benchmarks principales que usa el campo para comparar harnesses de programación.

En automatización empresarial, el harness dominante es Salesforce Agentforce, que envuelve a un modelo en un runtime diseñado para manejar flujos de CRM — actualizar registros, enviar emails, programar citas, resumir casos y enrutar solicitudes entre múltiples agentes especialistas. Agentforce se presenta explícitamente como la capa de harness para el despliegue de IA empresarial.

En el trabajo vertical del conocimiento, empiezan a aparecer harnesses para tareas específicas de alto valor: investigación legal, razonamiento clínico, análisis financiero y búsqueda de personas. Estos harnesses verticales suelen tener un alcance mucho más estrecho que los generales, pero mucho más profundo — están afinados específicamente para los modos de fallo de un único trabajo. Lessie es un ejemplo de esta categoría: un Harness Agent vertical construido alrededor de la única tarea de encontrar a la persona correcta a través de redes profesionales, plataformas sociales y bases de datos académicas.

Harness AI DevOps agent: el ángulo de Salesforce

Una frase específica que ha cobrado tracción en 2026 es harness AI DevOps agent — y casi siempre se refiere al enfoque de Salesforce Agentforce para las operaciones de IA. En este encuadre, el agent harness se trata como una pieza de infraestructura DevOps, no como un artefacto de investigación. Es algo que provisionas, versionas, monitorizas y por lo que pagas, de la misma forma que provisionas una base de datos o un clúster de Kubernetes.

El posicionamiento de Salesforce es que el agent harness es la capa que falta entre el modelo y el flujo de trabajo del negocio. Su argumento va así: las empresas tienen acceso a muchos modelos frontera, pero no tienen una forma fiable de desplegar esos modelos en flujos de producción que tocan datos reales de clientes, ingresos reales y requisitos reales de cumplimiento. El harness es lo que hace que ese despliegue sea seguro y operativamente sensato. Aplica permisos, registra cada acción para auditoría, gestiona el contexto a lo largo de tareas largas y proporciona interrupciones con humano en el bucle para operaciones de alto impacto.

Este encuadre DevOps es también la razón por la que Salesforce cobra dinero por el harness en lugar de regalarlo. Lo cual nos lleva a la pregunta que la mayoría de lectores quieren ver respondida.

¿Quién construye agent harnesses? Empresas y precios

El mercado de agent harnesses en 2026 se divide aproximadamente en cuatro grupos: harnesses comerciales empresariales, harnesses comerciales orientados al desarrollador, harnesses open-source de investigación y harnesses comerciales verticales. Aquí va una instantánea de los principales actores y lo que cobran.

Salesforce Agentforce es el agent harness comercialmente más agresivo del mercado. Salesforce ofrece varios modelos de precios. El punto de entrada gratuito es Salesforce Foundations, que te da una pequeña asignación de créditos para pruebas. Más allá de eso, hay dos modelos de consumo principales: un modelo por conversación a 2 $ por conversación (definida como cualquier interacción dentro de una ventana de 24 horas), y el modelo más reciente de Flex Credits donde cada acción consume 20 créditos a aproximadamente 0,10 $ por acción, con packs de créditos vendidos a 500 $ por 100.000 créditos. Para presupuestos predecibles, Salesforce también ofrece add-ons por usuario empezando en 125 $ por usuario al mes para las ediciones estándar y 150 $ por usuario al mes para industrias reguladas como servicios financieros y sanidad. Las grandes empresas pueden comprar Agentforce 1 Edition, un plan de uso ilimitado que empieza en 550 $ por usuario al mes. Los despliegues reales en empresas medianas normalmente caen entre 15.000 $ y 50.000 $ al año solo en Agentforce, sin contar los costes de infraestructura de Data Cloud, que a menudo son necesarios y con frecuencia superan a la propia licencia del harness.

El Claude Agent SDK de Anthropic es un harness orientado a desarrolladores que se entrega como parte de la API de Claude. No hay licencia aparte — pagas por los tokens del modelo y el harness viene incluido. Aplican los precios de los niveles Sonnet y Opus. Claude Code, que es el harness orientado al consumidor construido sobre la misma base, está incluido en las suscripciones Claude Pro y Claude Max. Es lo más parecido a un agent harness “de propósito general” dirigido a desarrolladores, y alimenta buena parte del ecosistema de agentes de programación.

LangChain y LangGraph están en una posición ligeramente distinta. Las librerías open-source son gratis, pero la plataforma de runtime alojada y de observabilidad (LangSmith) se cobra por traza, con un nivel gratuito y planes de pago que empiezan en torno a 39 $ por usuario al mes para equipos. Muchas empresas usan LangGraph como la capa de harness bajo sus propios agentes personalizados.

Los harnesses open-source de investigación incluyen el HAL harness de Princeton (gratis, diseñado para evaluación en benchmarks), OpenHarness de HKUDS (gratis, licencia MIT, diseñado como implementación de referencia inspeccionable) y el lm-evaluation-harness de EleutherAI (gratis, diseñado para benchmarking de modelos más que para despliegue de agentes). Estos son los harnesses a los que recurres si quieres entender cómo funciona la arquitectura por debajo, o si quieres construir el tuyo propio.

Los harnesses verticales son la categoría más nueva. Lessie es un Harness Agent vertical para búsqueda de personas, con precios que empiezan gratis y escalan en función de créditos de búsqueda — más cercano a un producto SaaS que a precios de infraestructura empresarial. Otros harnesses verticales están empezando a aparecer en investigación legal, apoyo a la decisión clínica y análisis financiero, típicamente con precio de suscripción SaaS en lugar de consumo por acción.

Lo interesante de este panorama es la dispersión de precios. Un harness de investigación no cuesta nada. Un harness para desarrolladores de Anthropic cuesta lo que cuesten tus tokens de modelo. Un harness comercial empresarial de Salesforce puede suponer para una empresa mediana decenas de miles de dólares al mes. Y un harness vertical como Lessie cuesta aproximadamente lo mismo que una herramienta SaaS, porque resuelve un único trabajo en lugar de intentar ser infraestructura para todo. No hay un único precio “correcto” para un agent harness — depende por completo de si estás pagando por un artefacto de investigación, un bloque para desarrolladores, una plataforma empresarial o un producto vertical terminado.

Un ejemplo real: cómo el agent harness de Lessie encuentra a la persona correcta

Las definiciones y las tablas de precios solo llegan hasta cierto punto. La forma más clara de entender lo que realmente hace un agent harness es verlo trabajar sobre una consulta real. Así que aquí va un recorrido por una única tarea de búsqueda de personas, de principio a fin, señalando cada componente del harness a medida que se activa.

La consulta es una de las más duras del dataset PeopleSearchBench:

“Encuéntrame ingenieros senior de machine learning en startups Series B en Berlín que hayan lanzado productos LLM en el último año y que tengan presencia pública en escritura técnica.”

Una aproximación ingenua metería la frase entera en un buscador y esperaría lo mejor. Eso falla por razones obvias: no hay una única fuente en internet que indexe “senior ML engineer + Series B + Berlín + productos LLM lanzados + escribe en público”. La información vive en cinco sitios distintos y alguien —o algo — tiene que fusionarla. Aquí es donde el harness se gana el sueldo.

Paso 1 — Descomposición de consulta (capa de ingeniería de contexto). El harness de Lessie no pasa la frase cruda al modelo. Primero descompone la consulta en criterios explícitos y verificables: rol = ingeniero ML, seniority = senior, fase de empresa = Series B, ubicación = Berlín, output reciente = producto LLM lanzado en los últimos 12 meses, huella pública = existe escritura técnica. Cada criterio se convierte en un predicado de verificación que los pasos posteriores comprobarán de forma independiente. Esta descomposición es la misma metodología que usa PeopleSearchBench para puntuar plataformas de búsqueda, y es la diferencia entre una consulta que devuelve “gente senior en Berlín” y una consulta que devuelve a los seis humanos correctos.

Paso 2 — Orquestación multi-fuente (capa de herramientas). El harness despliega en paralelo la consulta descompuesta por las fuentes donde vive cada criterio. Redes profesionales para el rol actual y la seniority. Bases de datos de startups y anuncios de rondas para la fase de empresa. Señales geográficas a través de múltiples fuentes para la ubicación. GitHub, páginas de lanzamiento de producto y menciones en changelogs para productos LLM lanzados. Blogs personales, Substack, dev.to y listados de charlas en conferencias para la presencia en escritura técnica. El modelo nunca ve el reparto crudo — el harness gestiona el paralelismo, reintenta las fuentes fallidas y ensambla un conjunto unificado de candidatos.

Paso 3 — Bucle de verificación (capa de sensores). Este es el paso que la mayoría de los agentes generales se saltan, y es la razón por la que la mayoría de los agentes generales alucinan personas que no existen. Por cada candidato que la capa de orquestación saca a la superficie, el harness ejecuta una pasada de verificación web en vivo: contrasta cada criterio contra fuentes frescas antes de que el candidato pueda entrar en el conjunto de resultados. Si el harness no puede verificar de forma independiente que “Anna Schmidt” está efectivamente en una empresa Series B en Berlín, Anna Schmidt no aparece en la salida. Esta es exactamente la capa de guardarraíles que describe Salesforce en su documentación de Agentforce, solo que especializada para los modos de fallo específicos de la búsqueda de personas.

Paso 4 — Enriquecimiento de perfil (capa de herramientas, segunda pasada). Una vez que un candidato pasa la verificación, el harness tira de datos estructurados de perfil: rol actual y antigüedad, actividad reciente, enlaces a publicaciones, vías de contacto, presencia social. Por eso Lessie saca la puntuación más alta en la dimensión de Utility en PeopleSearchBench — devolver a la persona correcta con los campos vacíos no sirve realmente, y un harness general no tiene ninguna razón incorporada para hacer enriquecimiento como paso separado.

Paso 5 — Ranking y presentación (capa de modelo). Solo al final el modelo hace lo que los modelos hacen especialmente bien: leer el conjunto de candidatos verificado y enriquecido y rankearlo por ajuste global a la consulta original. El modelo está haciendo un juicio, pero lo está haciendo sobre una entrada limpia, verificada y estructurada — no sobre un volcado web crudo y ruidoso.

La secuencia entera corre de forma autónoma. Desde la perspectiva del usuario, escribió una frase y recibió seis personas reales con perfiles reales y evidencia real de por qué cada una encaja. Desde la perspectiva del harness, esa única frase disparó descomposición de consulta, recuperación paralela multi-fuente, decenas de llamadas de verificación, enriquecimiento de perfil y una pasada final de ranking — todo coordinado, todo con manejo de errores, todo registrado.

Así es como se ve un agent harness en IA cuando está haciendo su trabajo. El modelo está haciendo quizá el 20% del trabajo visible. El harness está haciendo el otro 80%, y ese 80% es la diferencia entre un agente que funciona en una demo y un agente que funciona en la consulta número 119 seguida sin romperse.

¿Qué va a significar un agent harness en 2026 y más allá?

Lo más interesante de la conversación sobre harness en 2026 es que le ha dado la vuelta a la narrativa estándar de la IA. Durante tres años, toda conversación sobre el progreso de la IA era una conversación sobre el tamaño del modelo, el entrenamiento del modelo, los benchmarks del modelo. La suposición tácita era que el siguiente modelo resolvería lo que estaba roto en el actual.

La tesis del harness dice lo contrario: el progreso de los modelos es real pero se está ralentizando, y las ganancias que quedan en fiabilidad agentic viven en la infraestructura alrededor del modelo. Salesforce lo defiende en su pitch de precios. Anthropic lo hace en la documentación de su Claude Agent SDK. Princeton lo hace con HAL harness como plataforma de investigación. El paper de Meta-Harness de marzo de 2026 lo demostró empíricamente mostrando que reescribir automáticamente el harness alrededor de un modelo fijo puede subir las puntuaciones en benchmarks de programación varios puntos sin tocar los pesos.

Si la tesis es correcta, dos cosas se siguen. Primero, cada tarea agentic comercialmente valiosa acabará teniendo su propio harness especializado. La programación ya tiene uno. La automatización de CRM ya tiene uno. La búsqueda de personas ya tiene uno. La investigación legal, el razonamiento clínico, el análisis financiero y la investigación de cadenas de suministro tendrán los suyos. Los actores horizontales como Salesforce dominarán la capa empresarial transversal, y los actores verticales como Lessie dominarán los trabajos específicos que tienen modos de fallo para los que un harness general nunca optimizará. Segundo, los benchmarks para agent harnesses se volverán más importantes que los benchmarks para modelos crudos. PeopleSearchBench es un ejemplo temprano. Habrá muchos más.

El modelo es el motor. El harness es el coche. En 2026, los coches empiezan a importar más que los motores.

Si quieres ver un Harness Agent vertical en acción en el trabajo para el que fue construido, prueba Lessie en lessie.ai. Y si quieres la metodología completa del benchmark detrás del ejemplo de búsqueda de personas de arriba, el dataset y el paper de PeopleSearchBench son código abierto en lessie.ai/benchmark.

El harness es el foso. Los datos — y las etiquetas de precio — ya lo dicen.

FAQ

¿Qué es un agent harness en una frase?

Un agent harness es la infraestructura de software que envuelve a un modelo de IA para gestionar sus herramientas, memoria, contexto, seguridad y ciclo de vida, convirtiendo a un modelo de lenguaje sin estado en un trabajador autónomo fiable.

¿Qué es un AI agent harness y en qué se diferencia de un agent framework?

Un agent framework, como LangChain o LangGraph, es la librería que usas para diseñar la lógica de un agente. Un AI agent harness es el entorno de runtime que realmente ejecuta ese agente en producción — gestionando el estado, manejando errores, aplicando seguridad y persistiendo el progreso. El framework es el plano; el harness es el edificio dentro del que trabaja el agente.

¿Para qué se usa un agent harness en IA?

Los usos más comunes son agentes de programación (Claude Code), automatización de flujos empresariales (Salesforce Agentforce), evaluación de IA (HAL harness de Princeton) y trabajo vertical del conocimiento como la búsqueda de personas (Lessie). Allí donde un agente necesite terminar un trabajo real en lugar de responder a un único mensaje de chat, hay un harness implicado.

¿Cómo suelen ser los precios de un AI agent harness?

Varían enormemente. Los harnesses open-source de investigación son gratis. El Claude Agent SDK de Anthropic viene incluido en el precio por tokens del modelo. Salesforce Agentforce cobra aproximadamente 0,10 $ por acción vía Flex Credits, 2 $ por conversación, o 125–550 $ por usuario al mes para ediciones de uso ilimitado. Los harnesses verticales como Lessie tienen precio SaaS, típicamente con un nivel gratuito y escalado basado en créditos.

¿Cómo va a ser un agent harness dentro de cinco años?

El consenso actual es que los agent harnesses se volverán tan fundamentales para el despliegue de IA como las bases de datos lo son para las aplicaciones web — infraestructura invisible de la que todo el mundo depende pero en la que nadie piensa, hasta que se rompe. Los harnesses verticales para trabajos específicos probablemente superarán en número a los de propósito general, porque las optimizaciones más profundas del harness vienen de ser estrechos.