Se hai passato un po’ di tempo su AI Twitter nel 2026, hai visto la stessa parola ovunque: harness. La usa Anthropic. Salesforce ci ha costruito attorno un’intera pagina prodotto. Princeton ha rilasciato un progetto di ricerca chiamato HAL harness. Martin Fowler ha scritto un lungo saggio sull’harness engineering per gli agenti di programmazione. E la formula che tutti continuano a ripetere è sempre la stessa:
Agent = Model + Harness.
Quindi cos’è esattamente un agent harness, chi lo costruisce, quanto costa e che aspetto ha davvero in produzione? Questa guida risponde a tutte queste domande, e poi mostra un esempio reale di come l’agent harness di People Search di Lessie trovi la persona giusta a partire da una query vaga e multi-criterio.
Cos’è un Agent Harness?
Un agent harness è l’infrastruttura software che avvolge un modello di IA per gestire tutto ciò che il modello stesso non può gestire da solo — strumenti, memoria, contesto, controlli di sicurezza, recupero dagli errori e l’intero ciclo di vita di un compito. Il modello è il cervello. Il harness è il corpo, il sistema nervoso e l’ambiente in cui il cervello opera.
La definizione più corta arriva dal progetto OpenHarness di HKUDS: il modello è l’agente, e il codice è il harness. Una un po’ più lunga, dai post di engineering di Anthropic: un harness è tutto ciò che sta in un agente tranne il modello stesso.
Perché conta questa distinzione? Perché nel 2025 l’industria dell’IA dava per scontato che modelli migliori avrebbero risolto ogni problema. Nel 2026 è diventato chiaro che anche il modello frontiera più potente — fatto girare senza scaffolding attorno — fallisce su compiti reali, lunghi e multi-step. Allucina chiamate agli strumenti. Perde di vista l’obiettivo originale dopo cinquanta turni. Ripete lo stesso errore al turno 47 perché niente gli ha detto che l’errore è avvenuto. La soluzione a questi fallimenti non è un modello più grande. La soluzione è un agent harness.
Cos’è un AI Agent Harness, in parole semplici?
Se “agent harness” suona ancora astratto, ecco un’analogia utile. Immagina il modello di IA come un nuovo assunto brillante al suo primo giorno. È intelligente, colto e capace di ragionare su quasi tutto. Ma non sa dov’è il bagno, non ha accesso agli strumenti dell’azienda, non ricorda cosa è successo nella riunione di ieri, e se fa un errore, nessuno lo intercetterà prima che arrivi al cliente.
Un AI agent harness è l’ufficio attorno a quel nuovo assunto. È il badge che gli permette di entrare nelle stanze giuste, il laptop con i software giusti installati, il calendario che gli ricorda cosa deve fare oggi, il manager che rivede il suo lavoro prima che esca, e il playbook che gli dice cosa fare quando qualcosa si rompe.
Quindi quando qualcuno chiede “cos’è un AI agent harness?”, la risposta più pulita è questa: un AI agent harness è l’infrastruttura operativa che trasforma un modello di linguaggio grezzo in un lavoratore affidabile, capace di portare a termine lavori reali senza supervisione costante. Senza il harness, hai un chatbot. Con il harness, hai un agente.
Cos’è un Agent Harness nell’IA? Le tre cose che fa davvero
Quando guardi come è costruito ogni agent harness serio nell’IA — il Claude Agent SDK di Anthropic, il harness di Agentforce di Salesforce, il HAL harness di Princeton, il progetto open source OpenHarness e gli harness verticali come Lessie — fanno più o meno tre cose. Se capisci queste tre responsabilità, capisci il 90% di ciò che fa un agent harness.
La prima responsabilità è il context engineering. Un modello ha una finestra di contesto finita, e in qualsiasi compito lungo quella finestra si riempie in fretta di log, output degli strumenti, ragionamenti intermedi e turni precedenti. Il harness decide cosa resta, cosa viene riassunto, cosa viene recuperato di nuovo e cosa viene buttato. Senza context engineering, gli agenti soffrono di quello che i ricercatori chiamano context rot — l’obiettivo originale viene sepolto sotto il rumore e l’agente inizia a perdere la rotta.
La seconda responsabilità è l’orchestrazione degli strumenti con guardrail. Un agente deve usare strumenti — ricerca, database, API, filesystem, altri agenti — ma gli output grezzi dei modelli sono non deterministici e producono regolarmente chiamate agli strumenti malformate, parametri sbagliati o nomi di funzione inventati che non esistono. Il harness sta tra il modello e gli strumenti, validando ogni chiamata prima che venga eseguita, mettendo in sandbox le operazioni pericolose e restituendo al modello risultati puliti e strutturati. Questa è la differenza tra un agente che funziona una volta in una demo e un agente che funziona diecimila volte in produzione.
La terza responsabilità è la gestione del ciclo di vita e dello stato. I compiti agentici a lunga durata possono durare minuti, ore o giorni. I modelli sono stateless per default — ogni chiamata parte da zero. Il harness dà all’agente persistenza: salva checkpoint, recupera dai crash, riprova gli step falliti e permette a un compito di sopravvivere attraverso le sessioni. Gestisce anche gli interrupt human-in-the-loop, mettendo in pausa l’agente quando una decisione ad alto rischio ha bisogno dell’approvazione umana prima di proseguire.
Queste tre responsabilità — contesto, strumenti, ciclo di vita — sono i muri portanti di ogni agent harness. Prodotti diversi le implementano in modo diverso, ma se una delle tre manca, l’agente prima o poi fallirà in produzione.
A cosa serve un Agent Harness? Casi d’uso reali in produzione
Gli agent harness compaiono ovunque qualcuno stia cercando di mettere un agente di IA in un workflow reale, non in una chat una tantum. Le tre categorie più grandi sono programmazione, automazione enterprise e lavoro di conoscenza verticale.
Nella programmazione, l’agent harness più visibile è quello dentro Claude Code, l’agente di programmazione da terminale di Anthropic. Claude Code è essenzialmente un modello più un harness progettato con cura che gli dà strumenti per leggere file, eseguire comandi shell, navigare repository e mantenere un log di avanzamento tra le sessioni. SWE-bench e TerminalBench-2 sono i due principali benchmark usati dal campo per confrontare gli harness di programmazione.
Nell’automazione enterprise, il harness dominante è Salesforce Agentforce, che avvolge un modello in un runtime progettato per gestire workflow CRM — aggiornare record, inviare email, fissare appuntamenti, riassumere casi e instradare richieste tra più agenti specialisti. Agentforce si posiziona esplicitamente come lo strato harness per il deployment di IA enterprise.
Nel lavoro di conoscenza verticale, gli harness iniziano ad apparire per compiti specifici ad alto valore: ricerca legale, ragionamento clinico, analisi finanziaria e People Search. Questi harness verticali tendono a essere molto più ristretti nello scopo rispetto agli harness generalisti, ma molto più profondi — sono tarati specificamente sui modi di fallimento di un solo lavoro. Lessie è un esempio di questa categoria: un agent harness verticale costruito attorno al singolo compito di trovare la persona giusta tra reti professionali, piattaforme social e database accademici.
Harness AI DevOps Agent: l’angolo di Salesforce
Una frase specifica che ha preso piede nel 2026 è harness AI DevOps agent — e si riferisce quasi sempre all’approccio di Salesforce Agentforce alle operazioni di IA. In questa lettura, l’agent harness è trattato come un pezzo di infrastruttura DevOps, non come un artefatto di ricerca. È qualcosa che provisioni, versioni, monitori e paghi, allo stesso modo in cui provisioni un database o un cluster Kubernetes.
Il posizionamento di Salesforce è che l’agent harness sia lo strato mancante tra il modello e il workflow di business. Il loro argomento suona così: le aziende hanno accesso a tanti modelli frontiera, ma non hanno un modo affidabile per portare quei modelli in workflow di produzione che tocchino dati reali dei clienti, fatturato reale e requisiti di compliance reali. Il harness è ciò che rende quel deployment sicuro e operativamente sostenibile. Applica permessi, logga ogni azione per l’auditing, gestisce il contesto su compiti lunghi e fornisce interrupt human-in-the-loop per le operazioni ad alto rischio.
Questa lettura DevOps è anche il motivo per cui Salesforce fa pagare il harness invece di regalarlo. Il che ci porta alla domanda a cui la maggior parte dei lettori vuole davvero una risposta.
Chi costruisce gli Agent Harness? Aziende e pricing
Il mercato degli agent harness nel 2026 si divide grosso modo in quattro gruppi: harness commerciali enterprise, harness commerciali orientati agli sviluppatori, harness di ricerca open source e harness commerciali verticali. Ecco una fotografia dei principali attori e di quanto fanno pagare.
Salesforce Agentforce è l’agent harness più aggressivo commercialmente sul mercato. Salesforce offre diversi modelli di pricing. Il punto di ingresso gratuito è Salesforce Foundations, che ti dà una piccola allocazione di crediti per testare. Oltre a questo, ci sono due principali modelli a consumo: un modello per-conversation a $2 per conversazione (definita come qualsiasi interazione in una finestra di 24 ore), e il più recente modello Flex Credits dove ogni azione consuma 20 crediti a circa $0,10 per azione, con pacchetti di crediti venduti a $500 per 100.000 crediti. Per budget prevedibili, Salesforce offre anche add-on per utente che partono da $125 per utente al mese per le edizioni standard e $150 per utente al mese per le industrie regolamentate come servizi finanziari e sanità. Le grandi aziende possono acquistare la Agentforce 1 Edition, un piano a uso illimitato che parte da $550 per utente al mese. I deployment reali nelle aziende mid-market atterrano tipicamente tra i $15.000 e i $50.000 l’anno solo su Agentforce, senza contare i costi dell’infrastruttura Data Cloud, che sono spesso richiesti e frequentemente superano il licensing del harness stesso.
Il Claude Agent SDK di Anthropic è un harness rivolto agli sviluppatori che viene distribuito come parte dell’API di Claude. Non c’è una licenza separata — paghi i token del modello e il harness è incluso. Si applicano i prezzi dei tier Sonnet e Opus. Claude Code, che è l’harness consumer costruito sulle stesse fondamenta, è incluso negli abbonamenti Claude Pro e Claude Max. Questa è la cosa più vicina a un agent harness “general-purpose” rivolto agli sviluppatori, e alimenta gran parte dell’ecosistema degli agenti di programmazione.
LangChain e LangGraph si trovano in una posizione leggermente diversa. Le librerie open source sono gratuite, ma il runtime gestito e la piattaforma di osservabilità (LangSmith) hanno un prezzo per trace, con un tier gratuito e piani a pagamento che partono da circa $39 per utente al mese per i team. Molte aziende usano LangGraph come strato harness sotto i loro agenti personalizzati.
Gli harness di ricerca open source includono HAL harness di Princeton (gratuito, progettato per la valutazione benchmark), OpenHarness di HKUDS (gratuito, licenza MIT, progettato come implementazione di riferimento ispezionabile) e lm-evaluation-harness di EleutherAI (gratuito, progettato per il benchmarking dei modelli più che per il deployment di agenti). Sono gli harness a cui ti rivolgi se vuoi capire come funziona l’architettura sotto il cofano, o se vuoi costruire il tuo.
Gli harness verticali sono la categoria più recente. Lessie è un agent harness verticale per la People Search, con pricing che parte gratuito e scala in base ai crediti di ricerca — più vicino a un prodotto SaaS che al pricing di infrastrutture enterprise. Altri harness verticali stanno iniziando ad apparire nella ricerca legale, nel supporto alle decisioni cliniche e nell’analisi finanziaria, tipicamente con pricing da abbonamento SaaS invece che da consumo per azione.
La cosa interessante di questo panorama è la forbice di prezzo. Un harness di ricerca non costa nulla. Un harness per sviluppatori di Anthropic costa quanto i token del modello. Un harness commerciale enterprise di Salesforce può costare a un’azienda mid-size decine di migliaia di dollari al mese. E un harness verticale come Lessie costa più o meno quanto uno strumento SaaS, perché risolve un solo lavoro invece di cercare di essere infrastruttura per tutto. Non esiste un singolo prezzo “giusto” per un agent harness — dipende interamente dal fatto che tu stia pagando per un artefatto di ricerca, un building block per sviluppatori, una piattaforma enterprise o un prodotto verticale finito.
Un esempio reale: come l’agent harness di Lessie trova la persona giusta
Definizioni e tabelle di prezzo arrivano solo fino a un certo punto. Il modo più chiaro per capire cosa fa davvero un agent harness è guardarne uno al lavoro su una query reale. Ecco quindi il walkthrough di un singolo compito di People Search, dall’inizio alla fine, con ogni componente del harness evidenziato mentre si attiva.
La query è una delle più difficili nel dataset PeopleSearchBench:
“Trovami senior machine learning engineer in startup Series B a Berlino che hanno spedito prodotti LLM nell’ultimo anno e hanno una presenza pubblica di scrittura tecnica.”
Un approccio ingenuo spingerebbe tutta questa frase in un motore di ricerca e spererebbe nel meglio. Questo fallisce per ragioni ovvie: non esiste una singola fonte su internet che indicizzi “senior ML engineer + Series B + Berlino + ha spedito prodotto LLM + scrive pubblicamente”. L’informazione vive in cinque posti diversi e qualcuno — o qualcosa — deve fonderla. È qui che il harness guadagna il suo stipendio.
Step 1 — Decomposizione della query (strato di context engineering). Il harness di Lessie non passa la frase grezza al modello. Prima spezza la query in criteri espliciti e verificabili: ruolo = ML engineer, seniority = senior, stadio azienda = Series B, posizione = Berlino, output recente = prodotto LLM spedito negli ultimi 12 mesi, footprint pubblico = esiste scrittura tecnica. Ogni criterio diventa un predicato di verifica che gli step successivi controlleranno in modo indipendente. Questa decomposizione è la stessa metodologia che PeopleSearchBench usa per valutare le piattaforme di ricerca, ed è la differenza tra una query che restituisce “persone senior a Berlino” e una query che restituisce i sei umani giusti.
Step 2 — Orchestrazione multi-fonte (strato degli strumenti). Il harness fa fan-out della query decomposta in parallelo sulle fonti dove ogni criterio vive davvero. Reti professionali per ruolo attuale e seniority. Database di startup e annunci di finanziamento per lo stadio aziendale. Segnali geografici su più fonti per la posizione. GitHub, pagine di lancio prodotto e menzioni nei changelog per i prodotti LLM spediti. Blog personali, Substack, dev.to e listing di conference talk per la presenza di scrittura tecnica. Il modello non vede mai il fan-out grezzo — il harness gestisce il parallelismo, riprova le fonti fallite e assembla un set unificato di candidati.
Step 3 — Loop di verifica (strato dei sensor). Questo è lo step che la maggior parte degli agenti generalisti salta, ed è il motivo per cui la maggior parte degli agenti generalisti allucina persone che non esistono. Per ogni candidato che lo strato di orchestrazione fa emergere, il harness esegue un passaggio di verifica web live: controlla ogni criterio contro fonti fresche prima che il candidato sia ammesso nel set di risultati. Se il harness non riesce a verificare in modo indipendente che “Anna Schmidt” è davvero in un’azienda Series B a Berlino, Anna Schmidt non appare nell’output. Questo è esattamente lo strato di guardrail che Salesforce descrive nella documentazione di Agentforce, solo specializzato per i modi di fallimento specifici della People Search.
Step 4 — Arricchimento del profilo (strato degli strumenti, seconda passata). Una volta che un candidato supera la verifica, il harness tira giù dati strutturati di profilo: ruolo attuale e anzianità, attività recente, link a pubblicazioni, vie di contatto, presenza social. È per questo che Lessie ottiene il punteggio più alto sulla dimensione Utility in PeopleSearchBench — restituire la persona giusta con i campi vuoti non è in realtà utile, e un harness generalista non ha alcun motivo integrato per fare l’arricchimento come step separato.
Step 5 — Ranking e presentazione (strato del modello). Solo alla fine il modello fa quello in cui i modelli sono unicamente bravi: leggere il set di candidati verificati e arricchiti e ordinarlo per fit complessivo rispetto alla query originale. Il modello sta facendo un giudizio, ma lo sta facendo su un input pulito, verificato e strutturato — non su un dump web grezzo e rumoroso.
L’intera sequenza gira in autonomia. Dal punto di vista dell’utente, ha digitato una frase e ha ricevuto sei persone reali con profili reali e prove reali del perché ognuna corrisponde. Dal punto di vista del harness, quella singola frase ha innescato decomposizione della query, retrieval multi-fonte in parallelo, decine di chiamate di verifica, arricchimento del profilo e un passaggio finale di ranking — tutto coordinato, tutto con gestione degli errori, tutto loggato.
Questo è l’aspetto reale di un agent harness nell’IA quando sta facendo il suo lavoro. Il modello sta facendo forse il 20% del lavoro visibile. Il harness sta facendo l’altro 80%, e quell’80% è la differenza tra un agente che funziona in una demo e un agente che funziona alla 119esima query di fila senza rompersi.
Cosa significherà “Agent Harness” nel 2026 e oltre?
La cosa più interessante della conversazione sul harness nel 2026 è che ha capovolto la narrazione standard dell’IA. Per tre anni, ogni conversazione sul progresso dell’IA era una conversazione su dimensione del modello, training del modello, benchmark del modello. L’assunzione implicita era che il prossimo modello avrebbe risolto qualunque cosa fosse rotta nell’attuale.
La tesi del harness dice l’opposto: il progresso dei modelli è reale ma sta rallentando, e i guadagni rimasti in affidabilità agentica vivono nell’infrastruttura attorno al modello. Salesforce fa questo punto nel suo pitch di pricing. Anthropic lo fa nella documentazione del Claude Agent SDK. Princeton lo fa con HAL harness come piattaforma di ricerca. Il paper Meta-Harness di marzo 2026 lo ha fatto empiricamente, mostrando che riscrivere automaticamente il harness attorno a un modello fisso può alzare i punteggi di benchmark di programmazione di diversi punti senza toccare i pesi.
Se la tesi è giusta, due cose ne seguono. Primo, ogni compito agentico di valore commerciale prima o poi svilupperà il suo harness specializzato. La programmazione ne ha già uno. L’automazione CRM ne ha uno. La People Search ne ha uno. Ricerca legale, ragionamento clinico, analisi finanziaria e indagine sulla supply chain avranno il loro. Gli attori orizzontali come Salesforce domineranno lo strato enterprise cross-funzionale, e gli attori verticali come Lessie domineranno i lavori specifici che hanno modi di fallimento per cui un harness generalista non ottimizzerà mai. Secondo, i benchmark per gli agent harness diventeranno più importanti dei benchmark per i modelli grezzi. PeopleSearchBench è un esempio iniziale. Ne arriveranno molti altri.
Il modello è il motore. Il harness è la macchina. Nel 2026, le macchine stanno iniziando a contare più dei motori.
Se vuoi vedere un agent harness verticale all’opera sul lavoro per cui è stato costruito, prova Lessie su lessie.ai. E se vuoi la metodologia di benchmark completa dietro l’esempio di People Search qui sopra, il dataset e il paper di PeopleSearchBench sono open source su lessie.ai/benchmark.
Il harness è il fossato. I dati — e i cartellini dei prezzi — lo dicono già.