O que é um Agent Harness? Um guia em português claro com um exemplo real de busca de pessoas

4Segmentos do mercado de harness

$0,10Preço por ação do Agentforce

3Responsabilidades centrais do harness

2026O ano do harness

Se você passou algum tempo no AI Twitter em 2026, viu a mesma palavra em todo lugar: harness. A Anthropic usa. A Salesforce construiu uma página de produto inteira em torno dela. Princeton lançou um projeto de pesquisa chamado HAL harness. Martin Fowler escreveu um ensaio longo sobre engenharia de harness para agentes de programação. E a fórmula que todos repetem é a mesma:

Agent = Model + Harness.

Então, o que exatamente é um agent harness, quem os constrói, quanto custam e como um deles se parece de verdade em produção? Este guia responde todas essas perguntas e depois mostra um exemplo real de como o agent harness de busca de pessoas do Lessie encontra a pessoa certa a partir de uma consulta vaga e multi-critério.

O que é um Agent Harness?

Um agent harness é a infraestrutura de software que envolve um modelo de IA para gerenciar tudo aquilo que o próprio modelo não consegue gerenciar sozinho — ferramentas, memória, contexto, verificações de segurança, recuperação de erros e todo o ciclo de vida de uma tarefa. O modelo é o cérebro. O harness é o corpo, o sistema nervoso e o ambiente em que esse cérebro opera.

A definição mais curta vem do projeto OpenHarness da HKUDS: o modelo é o agente, e o código é o harness. Uma um pouco mais longa, dos próprios posts de engenharia da Anthropic: um harness é tudo em um agente menos o próprio modelo.

Por que essa distinção importa? Porque em 2025, a indústria de IA assumia que modelos melhores resolveriam todos os problemas. Em 2026, ficou claro que até o modelo de fronteira mais forte — rodando sem nenhum andaime ao redor — falha em tarefas longas, multi-etapas e do mundo real. Alucina chamadas de ferramentas. Perde o rastro do objetivo original depois de cinquenta turnos. Repete o mesmo erro no turno 47 porque nada disse a ele que o erro aconteceu. O conserto para essas falhas não é um modelo maior. O conserto é um agent harness.

O que é um AI Agent Harness, em português claro?

Se “agent harness” ainda soa abstrato, aqui vai uma analogia útil. Imagine o modelo de IA como uma nova contratação brilhante no primeiro dia. É inteligente, bem-lida e capaz de raciocinar sobre quase tudo. Mas não sabe onde fica o banheiro, não tem acesso às ferramentas da empresa, não lembra do que aconteceu na reunião de ontem e, se estragar alguma coisa, ninguém vai pegar antes de chegar ao cliente.

Um AI agent harness é o escritório ao redor dessa nova contratação. É o crachá que dá acesso às salas certas, o notebook com o software certo instalado, a agenda que lembra o que ela deveria estar fazendo hoje, o gestor que revisa o trabalho antes de ele sair e o manual que diz o que fazer quando algo quebra.

Então, quando alguém pergunta “o que é um AI agent harness,” a resposta mais limpa é essa: um AI agent harness é a infraestrutura operacional que transforma um modelo de linguagem cru em um trabalhador confiável capaz de terminar trabalhos reais sem supervisão constante. Sem o harness, você tem um chatbot. Com o harness, você tem um agente.

O que é um Agent Harness em IA? As três coisas que ele de fato faz

Quando você olha como cada agent harness sério em IA é construído — o Claude Agent SDK da Anthropic, o harness Agentforce da Salesforce, o HAL harness de Princeton, o projeto open-source OpenHarness e harnesses verticais como o Lessie — todos fazem aproximadamente três coisas. Se você entender essas três responsabilidades, entende 90% do que um agent harness faz.

A primeira responsabilidade é engenharia de contexto. Um modelo tem uma janela de contexto finita, e em qualquer tarefa longa essa janela enche rápido com logs, saídas de ferramentas, raciocínio intermediário e turnos anteriores. O harness decide o que fica, o que é resumido, o que é recuperado de novo e o que é jogado fora. Sem engenharia de contexto, agentes sofrem daquilo que os pesquisadores chamam de context rot — o objetivo original fica enterrado sob o ruído, e o agente começa a sair do trilho.

A segunda responsabilidade é orquestração de ferramentas com guardrails. Um agente precisa usar ferramentas — busca, bases de dados, APIs, sistemas de arquivos, outros agentes — mas saídas cruas de modelos são não-determinísticas e rotineiramente produzem chamadas de ferramentas mal formadas, parâmetros errados ou nomes de funções inventados que não existem. O harness fica entre o modelo e as ferramentas, validando cada chamada antes de ela rodar, isolando operações perigosas em sandbox e alimentando o modelo com resultados estruturados e limpos. Essa é a diferença entre um agente que funciona uma vez em um demo e um agente que funciona dez mil vezes em produção.

A terceira responsabilidade é gestão de ciclo de vida e estado. Tarefas de agentes de longa duração podem levar minutos, horas ou dias. Modelos são sem estado por padrão — cada chamada começa do zero. O harness dá persistência ao agente: salva checkpoints, se recupera de crashes, tenta de novo passos falhos e deixa uma tarefa sobreviver entre sessões. Também cuida de interrupções human-in-the-loop, pausando o agente quando uma decisão de alto risco precisa de aprovação humana antes de continuar.

Essas três responsabilidades — contexto, ferramentas, ciclo de vida — são as paredes estruturais de cada agent harness. Produtos diferentes implementam cada uma de maneiras diferentes, mas se qualquer uma das três faltar, o agente vai eventualmente falhar em produção.

Para que serve um Agent Harness? Casos de uso reais em produção

Agent harnesses aparecem onde quer que alguém esteja tentando implantar um agente de IA em um fluxo de trabalho real em vez de um chat único. As três maiores categorias são programação, automação empresarial e trabalho de conhecimento vertical.

Em programação, o agent harness mais visível é o que está dentro do Claude Code, o agente de programação baseado em terminal da Anthropic. O Claude Code é essencialmente um modelo mais um harness cuidadosamente projetado que lhe dá ferramentas para ler arquivos, rodar comandos de shell, navegar por repositórios e manter um log de progresso entre sessões. SWE-bench e TerminalBench-2 são os dois principais benchmarks que a área usa para comparar harnesses de programação.

Em automação empresarial, o harness dominante é o Salesforce Agentforce, que envolve um modelo em um runtime projetado para lidar com fluxos de CRM —atualizar registros, enviar e-mails, agendar reuniões, resumir casos e rotear pedidos entre múltiplos agentes especialistas. O Agentforce se posiciona explicitamente como a camada de harness para implantação de IA empresarial.

Em trabalho de conhecimento vertical, harnesses estão começando a surgir para tarefas específicas de alto valor: pesquisa jurídica, raciocínio clínico, análise financeira e busca de pessoas. Esses harnesses verticais costumam ser muito menores em escopo que harnesses gerais, mas muito mais profundos — são afinados especificamente para os modos de falha de um único trabalho. O Lessie é um exemplo dessa categoria: um agent harness vertical construído em torno da única tarefa de encontrar a pessoa certa em redes profissionais, plataformas sociais e bases de dados acadêmicas.

Harness AI DevOps Agent: o ângulo da Salesforce

Uma expressão específica que ganhou tração em 2026 é harness AI DevOps agent — e quase sempre se refere à abordagem do Salesforce Agentforce para operações de IA. Nesse enquadramento, o agent harness é tratado como uma peça de infraestrutura de DevOps, não como um artefato de pesquisa. É algo que você provisiona, versiona, monitora e paga, do mesmo jeito que provisiona uma base de dados ou um cluster Kubernetes.

O posicionamento da Salesforce é que o agent harness é a camada que falta entre o modelo e o fluxo de trabalho de negócios. O argumento deles vai assim: empresas têm acesso a bastante modelo de fronteira, mas não têm uma forma confiável de implantar esses modelos em fluxos de produção que tocam dados reais de cliente, receita real e requisitos reais de conformidade. O harness é o que torna essa implantação segura e operacionalmente sensata. Impõe permissões, registra cada ação para auditoria, gerencia contexto em tarefas longas e fornece interrupções human-in-the-loop para operações de alto risco.

Esse enquadramento de DevOps também é por que a Salesforce cobra pelo harness em vez de dar de graça. O que nos leva à pergunta que a maioria dos leitores de fato quer ver respondida.

Quem constrói Agent Harnesses? Empresas e preços

O mercado de agent harness em 2026 se divide grosso modo em quatro grupos: harnesses comerciais empresariais, harnesses comerciais focados em desenvolvedores, harnesses open-source de pesquisa e harnesses comerciais verticais. Aqui vai um retrato dos principais players e do que cobram.

Salesforce Agentforce é o agent harness mais agressivo comercialmente no mercado. A Salesforce oferece vários modelos de preço. O ponto de entrada gratuito é o Salesforce Foundations, que dá uma pequena alocação de créditos para testes. Além disso, há dois modelos principais de consumo: um modelo por conversa a $2 por conversa (definida como qualquer interação dentro de uma janela de 24 horas) e o modelo mais novo Flex Credits, onde cada ação consome 20 créditos a cerca de $0,10 por ação, com pacotes de crédito vendidos a $500 por 100.000 créditos. Para orçamentos previsíveis, a Salesforce também oferece add-ons por usuário começando em $125 por usuário por mês para edições padrão e $150 por usuário por mês para indústrias reguladas como serviços financeiros e saúde. Grandes empresas podem comprar o Agentforce 1 Edition, um tier de uso ilimitado que começa em $550 por usuário por mês. Implantações reais em empresas de médio porte tipicamente ficam entre $15.000 e $50.000 por ano só em Agentforce, antes de contar os custos de infraestrutura do Data Cloud, que são frequentemente exigidos e muitas vezes excedem a própria licença do harness.

O Claude Agent SDK da Anthropic é um harness voltado para desenvolvedores que acompanha a API do Claude. Não há taxa de licença separada — você paga pelos tokens do modelo e o harness vem junto. Preços dos tiers Sonnet e Opus se aplicam. O Claude Code, que é o harness voltado ao consumidor construído sobre a mesma base, vem incluído nas assinaturas Claude Pro e Claude Max. É a coisa mais próxima de um agent harness “de propósito geral” voltado para desenvolvedores, e alimenta boa parte do ecossistema de agentes de programação.

LangChain e LangGraph ficam em uma posição um pouco diferente. As bibliotecas open-source são gratuitas, mas o runtime hospedado e a plataforma de observabilidade (LangSmith) são precificados por trace, com um tier gratuito e planos pagos começando em cerca de $39 por usuário por mês para times. Muitas empresas usam o LangGraph como camada de harness por baixo dos próprios agentes customizados.

Harnesses open-source de pesquisa incluem o HAL harness de Princeton (gratuito, projetado para avaliação de benchmarks), o OpenHarness da HKUDS (gratuito, licença MIT, projetado como uma implementação de referência inspecionável) e o lm-evaluation-harness da EleutherAI (gratuito, projetado para benchmark de modelos em vez de implantação de agentes). São os harnesses que você escolhe quando quer entender como a arquitetura funciona por baixo do capô, ou quando quer construir o seu próprio.

Harnesses verticais são a categoria mais nova. Lessie é um agent harness vertical para busca de pessoas, com preço que começa gratuito e escala com base em créditos de busca — mais perto de um produto SaaS do que de preço de infraestrutura empresarial. Outros harnesses verticais estão começando a aparecer em pesquisa jurídica, apoio à decisão clínica e análise financeira, tipicamente precificados como assinaturas SaaS em vez de consumo por ação.

O mais interessante nesse panorama é a amplitude de preços. Um harness de pesquisa custa nada. Um harness de desenvolvedor da Anthropic custa o que quer que os seus tokens de modelo custem. Um harness empresarial comercial da Salesforce pode custar dezenas de milhares de dólares por mês a uma empresa de médio porte. E um harness vertical como o Lessie custa mais ou menos o mesmo que uma ferramenta SaaS, porque resolve um trabalho em vez de tentar ser infraestrutura para tudo. Não existe um único preço “certo” para um agent harness — depende inteiramente de se você está pagando por um artefato de pesquisa, um bloco de construção para desenvolvedores, uma plataforma empresarial ou um produto vertical pronto.

Um exemplo real: como o agent harness do Lessie encontra a pessoa certa

Definições e tabelas de preços só vão até certo ponto. A forma mais clara de entender o que um agent harness de fato faz é ver um trabalhando em uma consulta real. Então aqui vai um passo a passo de uma única tarefa de busca de pessoas, de ponta a ponta, com cada componente do harness identificado conforme é ativado.

A consulta é uma das mais difíceis do dataset PeopleSearchBench:

“Me ache engenheiros de machine learning sêniores em startups Series B em Berlim que entregaram produtos LLM no último ano e têm presença pública em escrita técnica.”

Uma abordagem ingênua jogaria essa frase inteira em um mecanismo de busca e torceria pelo melhor. Isso falha por motivos óbvios: não existe uma única fonte na internet que indexe “engenheiro de ML sênior + Series B + Berlim + entregou produto LLM + escreve publicamente.” A informação vive em cinco lugares diferentes, e alguém —ou algo — tem que fundir isso tudo. É aqui que o harness faz por merecer.

Passo 1 — Decomposição da consulta (camada de engenharia de contexto). O harness do Lessie não passa a frase crua para o modelo. Primeiro quebra a consulta em critérios explícitos e verificáveis: papel = engenheiro de ML, senioridade = sênior, estágio da empresa = Series B, localização = Berlim, entrega recente = entregou produto LLM nos últimos 12 meses, pegada pública = escrita técnica existe. Cada critério se torna um predicado de verificação que etapas seguintes vão checar independentemente. Essa decomposição é a mesma metodologia que o PeopleSearchBench usa para pontuar plataformas de busca, e é a diferença entre uma consulta que devolve “pessoas sêniores em Berlim” e uma consulta que devolve os seis humanos certos.

Passo 2 — Orquestração multi-fonte (camada de ferramentas). O harness distribui a consulta decomposta em paralelo pelas fontes onde cada critério de fato vive. Redes profissionais para papel e senioridade atuais. Bases de startups e anúncios de rodadas para estágio da empresa. Sinais geográficos em múltiplas fontes para localização. GitHub, páginas de lançamento e menções em changelogs para produtos LLM entregues. Blogs pessoais, Substack, dev.to e listas de palestras em conferências para presença em escrita técnica. O modelo nunca vê o fan-out cru — o harness cuida do paralelismo, refaz fontes que falham e monta um conjunto unificado de candidatos.

Passo 3 — Loop de verificação (camada de sensores). Esse é o passo que a maior parte dos agentes gerais pula, e é por isso que a maior parte dos agentes gerais alucina pessoas que não existem. Para cada candidato que a camada de orquestração traz, o harness roda uma passagem de verificação ao vivo na web: checa cada critério contra fontes frescas antes de o candidato poder entrar no conjunto de resultados. Se o harness não consegue verificar de forma independente que “Anna Schmidt” está de fato em uma empresa Series B em Berlim, Anna Schmidt não aparece no resultado. É exatamente a camada de guardrail que a Salesforce descreve na documentação do Agentforce, só que especializada nos modos de falha específicos da busca de pessoas.

Passo 4 — Enriquecimento de perfil (camada de ferramentas, segunda passagem). Uma vez que um candidato passa na verificação, o harness puxa dados estruturados de perfil: papel atual e tempo de casa, atividade recente, links de publicação, vias de contato, presença social. É por isso que o Lessie pontua mais alto na dimensão Utility do PeopleSearchBench — devolver a pessoa certa com campos vazios não é, de fato, útil, e um harness genérico não tem nenhum motivo embutido para fazer enriquecimento como passo separado.

Passo 5 — Ranqueamento e apresentação (camada do modelo). Só no final o modelo faz aquilo em que modelos são exclusivamente bons: ler o conjunto de candidatos verificado e enriquecido e ranqueá-lo pelo encaixe geral com a consulta original. O modelo está fazendo um julgamento, mas está fazendo esse julgamento sobre uma entrada limpa, verificada e estruturada — não sobre um despejo cru e barulhento da web.

A sequência toda roda de forma autônoma. Do ponto de vista do usuário, ele digitou uma frase e recebeu de volta seis pessoas reais com perfis reais e evidências reais para por que cada uma corresponde. Do ponto de vista do harness, essa única frase disparou decomposição de consulta, retrieval paralelo multi-fonte, dezenas de chamadas de verificação, enriquecimento de perfil e uma passagem final de ranqueamento — tudo coordenado, tudo com tratamento de erro, tudo logado.

É assim que um agent harness em IA se parece de verdade quando está fazendo o seu trabalho. O modelo está fazendo talvez 20% do trabalho visível. O harness está fazendo os outros 80%, e esses 80% são a diferença entre um agente que funciona em um demo e um agente que funciona na 119ª consulta seguida sem quebrar.

O que Agent Harness vai significar em 2026 e além?

A coisa mais interessante sobre a conversa de harness em 2026 é que ela virou a narrativa padrão da IA de cabeça para baixo. Por três anos, cada conversa sobre progresso em IA era uma conversa sobre tamanho do modelo, treino do modelo, benchmark do modelo. A suposição não dita era que o próximo modelo resolveria o que estivesse quebrado no atual.

A tese do harness diz o oposto: o progresso dos modelos é real mas está desacelerando, e os ganhos que sobraram em confiabilidade agentic vivem na infraestrutura ao redor do modelo. A Salesforce faz esse ponto no seu pitch de preços. A Anthropic faz isso na documentação do Claude Agent SDK. Princeton faz isso com o HAL harness como plataforma de pesquisa. O paper Meta-Harness de março de 2026 fez isso empiricamente ao mostrar que reescrever automaticamente o harness ao redor de um modelo fixo pode subir pontuações em benchmark de programação em vários pontos sem tocar nos pesos.

Se a tese estiver certa, duas coisas se seguem. Primeiro, toda tarefa agentic comercialmente valiosa vai eventualmente ganhar o seu próprio harness especializado. Programação já tem um. Automação de CRM tem um. Busca de pessoas tem um. Pesquisa jurídica, raciocínio clínico, análise financeira e investigação de cadeia de suprimentos vão ter os seus. Os players horizontais como a Salesforce vão dominar a camada empresarial multifuncional, e os players verticais como o Lessie vão dominar os trabalhos específicos que têm modos de falha que um harness genérico nunca vai otimizar. Segundo, benchmarks para agent harnesses vão ficar mais importantes que benchmarks para modelos crus. O PeopleSearchBench é um exemplo inicial. Haverá muitos mais.

O modelo é o motor. O harness é o carro. Em 2026, os carros estão começando a importar mais que os motores.

Se você quiser ver um agent harness vertical em ação no trabalho para o qual foi construído, experimente o Lessie em lessie.ai. E se quiser a metodologia completa de benchmark por trás do exemplo de busca de pessoas acima, o dataset e o paper do PeopleSearchBench são open source em lessie.ai/benchmark.

O harness é o fosso. Os dados — e as etiquetas de preço — já dizem isso.

FAQ

O que é um agent harness em uma frase?

Um agent harness é a infraestrutura de software que envolve um modelo de IA para gerenciar as suas ferramentas, memória, contexto, segurança e ciclo de vida, transformando um modelo de linguagem sem estado em um trabalhador autônomo confiável.

O que é um AI agent harness e em que ele difere de um agent framework?

Um agent framework, como LangChain ou LangGraph, é a biblioteca que você usa para desenhar a lógica de um agente. Um AI agent harness é o ambiente de runtime que de fato executa esse agente em produção — gerenciando estado, tratando erros, impondo segurança e persistindo progresso. O framework é a planta; o harness é o prédio dentro do qual o agente trabalha.

Para que um agent harness em IA é usado?

Os usos mais comuns são agentes de programação (Claude Code), automação de fluxos de trabalho empresariais (Salesforce Agentforce), avaliação de IA (HAL harness de Princeton) e trabalho de conhecimento vertical como busca de pessoas (Lessie). Onde quer que um agente precise terminar um trabalho real em vez de responder a uma única mensagem de chat, há um harness envolvido.

Como é tipicamente o preço de um AI agent harness?

Varia dramaticamente. Harnesses open-source de pesquisa são gratuitos. O Claude Agent SDK da Anthropic vem embutido no preço dos tokens do modelo. O Salesforce Agentforce cobra cerca de $0,10 por ação via Flex Credits, $2 por conversa, ou $125–$550 por usuário por mês para edições de uso ilimitado. Harnesses verticais como o Lessie são precificados como SaaS, tipicamente com um tier gratuito e escala baseada em créditos.

Como vai ser um agent harness daqui a cinco anos?

O consenso atual é que agent harnesses vão se tornar tão fundamentais para a implantação de IA quanto as bases de dados se tornaram para aplicações web — infraestrutura invisível da qual todos dependem mas em que ninguém pensa, até ela quebrar. Harnesses verticais para trabalhos específicos provavelmente vão superar em número os de propósito geral, porque as otimizações mais profundas de harness vêm de ser estreito.