Nel 2026, la frase più interessante sull’IA non parla di un nuovo modello. È una formula su cui Anthropic, Martin Fowler e metà della comunità di ricerca in IA sono convergenti nelle ultime settimane:
Agent = Model + Harness.
Se ultimamente sei stato su AI Twitter, hai visto la parola harness ovunque. Princeton ha rilasciato HAL harness. HKUDS ha aperto OpenHarness in open source. Un nuovo paper Meta-Harness ha mostrato che riscrivere automaticamente il harness attorno a un modello fisso può alzare il punteggio di TerminalBench-2 di diversi punti senza toccare i pesi. Philipp Schmid ha definito l’agent harness «lo strumento principale per risolvere il model drift nei task lunghi».
Ma c’è una cosa che nessuno dice ad alta voce: quasi tutta la conversazione sul harness nel 2026 riguarda agenti di programmazione. Claude Code. SWE-bench. Task da terminale. Navigazione di repository.
E tutto il resto? Il lavoro agentico che non tocca un repository Git?
Noi siamo Lessie e costruiamo un Harness Agent per un singolo lavoro: trovare persone. I recruiter ci usano per trovare candidati. I team commerciali per trovare i decisori. I VC per trovare i fondatori. I marketer per trovare creator. Per questo, quando la conversazione sul harness è esplosa, volevamo sapere una cosa concreta: la tesi « il harness conta più del modello» regge anche fuori dalla programmazione?
Così abbiamo costruito un benchmark e fatto l’esperimento. Il risultato si chiama PeopleSearchBench, e il titolo è questo:
Su 119 query reali di People Search, Lessie ha totalizzato 65,2. Claude Code, su Sonnet 4.6, ha fatto 45,8. Un divario del 42% — e l’unica cosa cambiata è il harness.
Vediamo cosa significa.
Cos’è un Harness Agent, in parole povere
La definizione più corta arriva dal team OpenHarness: il modello è l’agente; il codice è il harness. Una un po’ più lunga, di Parallel Web: un harness è il runtime che avvolge un modello, intercetta le sue chiamate agli strumenti, gestisce il suo contesto e lo tiene incollato al compito.
Martin Fowler la racconta come due metà che lavorano insieme.Guides: controlli feed-forward che modellano il comportamento dell’agente prima che agisca (system prompt, descrizioni degli strumenti, contesto recuperato, snapshot dell’ambiente).Sensors: controlli feedback che osservano cosa ha fatto l’agente e reiniettano le correzioni (linter, validatori, loop di verifica). Un buon harness combina entrambi. Un harness scadente è solo feed-forward e guarda l’agente rifare lo stesso errore al turno 47.
Quindi un Harness Agent è il pacchetto completo: modello + guides + sensors + strumenti + memoria + logica di verifica. Quello che trasforma la previsione grezza di token in qualcosa che chiude davvero un lavoro.
Stanno emergendo due gusti:
- Harness generalisti come il Claude Agent SDK, OpenHarness o il harness dentro Claude Code. Pensati per essere indipendenti dal dominio.
- Harness verticali costruiti attorno a un solo lavoro, con guides e sensors tarati sui modi di fallimento di quel lavoro.
Quasi tutti i benchmark di harness di cui hai sentito parlare — SWE-bench, TerminalBench-2, USACO, AppWorld — misurano harness generalisti su task di programmazione. Per quanto ne sappiamo, PeopleSearchBench è il primo benchmark che mette un Harness Agent verticale contro uno generalista su un compito che non è codice.
Perché la People Search ha bisogno di un harness suo
Se hai mai chiesto a un agente IA generalista « trovami senior ML engineer in startup Series B a Berlino che hanno spedito prodotti LLM», conosci già i modi di fallimento. Tre sono particolarmente ostinati, e tutti e tre sono problemi del harness, non del modello:
1. Risoluzione di entità tra fonti.Una persona reale esiste contemporaneamente su LinkedIn, X, GitHub, talk a conferenze, pagine aziendali e database accademici. Usa nomi diversi, foto diverse, a volte persino ortografie diverse. Un harness generalista non ha alcuna nozione integrata che« questo profilo LinkedIn e quell’account GitHub sono lo stesso umano». Un harness di People Search deve risolverlo in ogni query.
2. Loop di verifica.Senza uno strato di sensors, gli agenti inventano persone con piena sicurezza. Citeranno un « Senior ML Engineer in Stripe Berlino» che non esiste, perché i token sono plausibili. La cura non è un modello più intelligente — Sonnet 4.6 dentro Claude Code lo fa lo stesso. La cura è un sensor: ogni persona restituita viene verificata contro fonti web in tempo reale prima di arrivare all’utente.
3. Decomposizione delle query per attributi umani.« ML engineer a Berlino, Series B, che ha spedito prodotti LLM» non è una query. È una checklist: ruolo + seniority + stadio aziendale + posizione + dominio + output recente. Un harness generalista butta tutta la frase in una casella di ricerca. Un harness verticale la scompone in criteri, li fa girare in parallelo sulle fonti giuste, poi riassembla e ordina.
Tutte e tre sono esattamente quello che Fowler chiama guides e sensors. Solo che sono guides e sensors che nessuno si prende la briga di mettere in un harness generalista di programmazione, perché quel harness non ne ha bisogno.
Le prove: PeopleSearchBench
Abbiamo costruito PeopleSearchBench per testare la cosa con onestà. La metodologia completa sta nel paper, ma in versione corta è così:
- 119 query reali, raccolte da workflow reali di recruiting, vendita e ricerca
- 4 lingue (inglese, portoghese, spagnolo, olandese)
- 4 scenari: Recruiting (30), Prospecting B2B (32), Esperto / Deterministico (28), Influencer / KOL (29)
- 4 piattaforme: Lessie (Harness Agent verticale), Exa (API di ricerca strutturata), Juicebox / PeopleGPT (piattaforma di recruiting con 800M+ profili), Claude Code (harness generalista su Sonnet 4.6)
- Tre dimensioni indipendenti: Relevance (padded nDCG@10), Coverage (task completion × resa), Utility (completezza dei dati di profilo)
- Verifica via ricerca web in tempo reale, non a sentimento di un LLM: ogni persona restituita viene confrontata con LinkedIn, siti aziendali e profili pubblici. L’agente verificatore non sa quale piattaforma abbia prodotto quale risultato.
I punteggi totali:
- Lessie: Totale 65,2 | Relevance 70,2 | Coverage 69,1 | Utility 56,4
- Exa: Totale 54,6 | Relevance 53,8 | Coverage 58,1 | Utility 53,1
- Claude Code: Totale 45,8 | Relevance 54,3 | Coverage 41,1 | Utility 42,7
- Juicebox: Totale 45,8 | Relevance 44,7 | Coverage 41,8 | Utility 50,9
Lessie è prima in ogni dimensione. È anche l’unica piattaforma ad aver chiuso tutte le 119 query — un tasso di completamento del 100%. Le altre tre restituivano regolarmente nulla sulle ricerche di nicchia.
Ma il numero che conta di più per il dibattito sul harness è il distacco tra Lessie e Claude Code. Entrambi sono agenti IA. Entrambi possono chiamare strumenti. Entrambi possono cercare sul web. Claude Code gira su uno dei modelli più potenti del pianeta. E ha perso di 19,4 punti al totale, con 28 punti di distacco solo sulla Coverage.
Quei 19,4 punti non sono un divario di modello. Sono un divario di harness.
Il distacco più ampio in un singolo scenario si è giocato sulla scoperta di Influencer / KOL: Lessie 62,3, Claude Code 43,2. La ricerca di influencer è il punto in cui gli harness generalisti crollano più rumorosamente, perché la risposta giusta vive contemporaneamente su TikTok, Instagram, YouTube e X, e un harness generalista non sa come fonderle. Il distacco più stretto è sul recruiting, dove tre piattaforme hanno superato i 64 — il recruiting è la verticale più matura della People Search, e l’industria ha avuto anni per costruire strumenti.
Lo schema è coerente: più uno scenario richiede fusione multi-fonte e verifica, più il harness pesa.
Cosa c’è dentro il harness di Lessie
Non pubblicheremo i nostri system prompt. Ma l’architettura ha tre strati che si mappano puliti sul modello guides-sensors, e vale la pena descriverli perché sono più o meno quelli che servirebbero a qualsiasi Harness Agent verticale:
Strato 1 — Orchestrazione multi-fonte (guides).Quando arriva una query, il harness la instrada in parallelo su reti professionali, piattaforme social, database accademici e registri pubblici. Ogni fonte ha la propria strategia di retrieval. Il modello non vede mai il fan-out grezzo: vede un set unificato di candidati.
Strato 2 — Decomposizione dei criteri e verifica (sensors).Ogni query viene scomposta in criteri espliciti — ruolo, seniority, posizione, stadio dell’azienda, segnali — e ogni candidato viene verificato contro quei criteri tramite lookup web in tempo reale prima dello step di ranking. È esattamente la stessa metodologia con cui PeopleSearchBench ci dà i voti, e non è un caso: abbiamo costruito il harness attorno ai modi di fallimento che il benchmark misura.
Strato 3 — Arricchimento del profilo.Una volta che la persona supera la verifica, il harness va a prendere dati strutturati di profilo: ruolo attuale, attività recente, vie di contatto, presenza social. È per questo che il nostro punteggio di Utility guida il campo: restituire la persona giusta con i campi vuoti non serve, e un harness generalista non ha motivo di fare l’arricchimento come step integrato.
Il modello al centro fa quello in cui i modelli sono bravi: ragionare, ordinare, riassumere, giudicare. Il harness fa tutto il resto. Togli il harness e ti rimane un chatbot. Togli il modello e ti rimane una pipeline di ricerca. Mettili insieme e hai un Harness Agent verticale.
Cosa significa per il dibattito sul harness
L’affermazione interessante che esce dalla conversazione sul harness nel 2026 è che il progresso dei modelli sui benchmark statici sta rallentando, ma la performance agentica è ancora molto aperta, perché la maggior parte dei guadagni rimasti vive nel harness. Meta-Harness l’ha mostrato lato programmazione scoprendo automaticamente harness migliori. PeopleSearchBench lo mostra dall’altro lato: harness verticali costruiti a mano possono battere un modello frontiera dentro un harness generalista con margini che nessun upgrade di modello chiuderà.
Se è così, due cose ne seguono.
Primo: ogni mestiere agentico di valore commerciale avrà il suo Harness Agent dedicato.La People Search è uno. La ricerca legale un altro. Ragionamento clinico, analisi finanziaria, indagine sulla supply chain, revisione della letteratura scientifica — ognuno ha modi di fallimento che un harness generalista non ottimizzerà mai, perché sta ottimizzando per tutto contemporaneamente. Gli Harness Agent verticali si mangeranno la coda lunga del lavoro agentico così come il SaaS si è mangiato la coda lunga del software.
Secondo: i benchmark devono adeguarsi.SWE-bench e TerminalBench-2 sono ottimi, ma misurano una sola fetta della qualità del harness. Se il campo prende sul serio la tesi del harness, servono benchmark di harness per ogni verticale che conta. PeopleSearchBench è il nostro tentativo di iniziarne uno per la People Search. Dataset, pipeline di valutazione e risultati completi sono open source.
Il modello è il motore. Il harness è la macchina.Noi questa macchina l’abbiamo costruita per una sola strada. Se il tuo lavoro ha a che fare con il trovare persone — candidati, clienti, investitori, creator, partner — prova la macchina:lessie.ai. E se vuoi vedere esattamente come abbiamo battuto un agente di programmazione con modello frontiera in qualcosa per cui non era stato costruito, il benchmark completo e il paper stanno qui.
Nel 2026, il harness è il fossato. I numeri lo dicono.