繁體中文

AI人物搜尋基準測試:Lessie在119個真實查詢中名列第一

119個真實查詢,透過網路驗證獨立評分。開源方法論。

TL;DR

  • Lessie在119個真實世界人物搜尋查詢的獨立基準測試中,總體得分為65.2分——在所有情境中均領先:招聘、B2B潛在客戶開發、專家搜尋和網紅發現。
  • Lessie是唯一在所有四種情境中都排名第一的平台:招聘、B2B潛在客戶開發、專家/確定性搜尋,以及網紅/KOL搜尋。
  • 100%完成率——每個查詢都返回了結果,即使是競爭對手沒有返回任何結果的利基和抽象搜尋。
  • 與Exa、Claude Code和Juicebox進行了476次平台執行比較,採用全自動、可重現的評分方式。
119真實查詢
4情境類別
#1總體排名
100%完成率

2026年AI人物搜尋的表現如何?我們建立了一個開源基準測試來找出答案。119個真實世界的查詢,來自招聘、銷售和研究領域的實際從業者工作流程——針對四個平台進行測試:LessieExaClaude CodeJuicebox。每個結果都經過獨立的網路來源驗證。沒有自我報告的數據。沒有精挑細選的範例。

結果:Lessie總體得分為65.2分,在所有四個情境類別中均領先。次優平台得分為55分。這篇文章將詳細介紹完整的基準測試結果——我們測量了什麼、如何評分,以及數據揭示了AI人物搜尋的現狀。

為何AI人物搜尋基準測試如此重要

AI人物搜尋正成為招聘、銷售和研究團隊的核心基礎設施。但到目前為止,還沒有標準化的方法來比較各個平台。供應商自我報告的準確性數據無法驗證。案例研究只挑選最佳結果。這個AI人物搜尋基準測試改變了這一點——119個真實查詢、獨立的網路驗證,以及所有測試平台的公平競爭環境。

平台比較

119個真實世界的查詢,透過網路驗證獨立評分,範圍為0–100分。每個平台在相同條件下執行相同的查詢。分數是相關性、覆蓋率和實用性三個維度的平均值。

平台比較長條圖顯示Lessie總體得分65.2,Exa得分55,Claude Code得分46,Juicebox得分45.8,涵蓋總體、相關性、覆蓋率和實用性維度

總體得分: Lessie 65.2 | Exa 55 | Claude Code 46 | Juicebox 45.8。總體得分是相關性、覆蓋率和實用性的簡單平均值——每個維度都獨立地以0–100分進行測量。

按維度細分:Lessie在相關性(70.2分,次優為54.3分)、覆蓋率(69.1分,次優為58.1分)和實用性(56.4分,次優為53.1分)方面領先。最大的差距在於相關性——比亞軍高出29%的優勢——這意味著Lessie始終如一地返回正確的人物,並在各種查詢類型中正確排名。

按情境劃分的AI人物搜尋表現

該基準測試涵蓋了四個AI人物搜尋能創造商業價值的真實用例。每個情境都反映了獨特的工作流程:不同的數據源、不同的標準複雜性,以及對「好」結果的不同定義。

橫向長條圖顯示Lessie在所有四個情境中領先:網紅/KOL 62.3,專家/確定性 70.4,B2B潛在客戶開發 60.6,招聘 68.2

網紅 / KOL: Lessie 62.3 | Claude Code 43.2 | Exa 41.6 | Juicebox 31.1。這是整個基準測試中表現差距最大的一項。單一來源平台在這裡表現最差,因為網紅存在於分散的社交平台——Instagram、TikTok、YouTube、Twitter、播客、新聞通訊——沒有單一資料庫能涵蓋所有這些平台。Lessie的AI人物搜尋能力在此情境中表現卓越。

專家 / 確定性: Lessie 70.4 | Exa 61.2 | Claude Code 57 | Juicebox 44.2。這些查詢具有可驗證的正確答案或尋求特定的領域專家。Lessie的混合搜尋策略——結合結構化資料庫和即時網路研究——被證明在尋找確切的正確人物方面最有效。這也體現了Lessie在AI人物搜尋方面的優勢。

B2B潛在客戶開發: Lessie 60.6 | Exa 55.2 | Juicebox 51.4 | Claude Code 43。在目標公司中尋找決策者是最常見的AI人物搜尋用例。Lessie的優勢來自於交叉參考多個數據源以驗證當前職位和聯繫資訊。

招聘: Lessie 68.2 | Juicebox 65.7 | Exa 64.7 | Claude Code 50.5。這是競爭最激烈的情境——三個平台總體得分都超過64分。招聘查詢受益於以LinkedIn為中心的資料庫,所有平台都可以訪問。這裡的差距是基準測試中最微小的。Lessie的AI人物搜尋在招聘領域依然領先。

情境深度分析

每個情境得分都分解為三個獨立維度:相關性(您找到正確的人了嗎?)、覆蓋率(有多少合格結果?)和實用性(返回的數據是否可操作?)。以下是詳細的細分。

網紅 / KOL——在社交平台尋找內容創作者

  • Lessie: 相關性 65.2,覆蓋率 62.8,實用性 58.9——100%完成率
  • Exa:Lessie表現的89.7%
  • Claude Code:Lessie表現的82.8%
  • Juicebox:Lessie表現的79.3%

專家 / 確定性——具有可驗證答案或尋求特定領域專家的查詢

  • Lessie: 相關性 79,覆蓋率 75.2,實用性 57.1——100%完成率
  • Exa:Lessie表現的96.4%
  • Claude Code:100%完成率但總體得分較低
  • Juicebox:Lessie表現的71.4%

B2B潛在客戶開發——在目標公司尋找決策者

  • Lessie: 相關性 62.8,覆蓋率 63.5,實用性 55.5——100%完成率
  • Exa:100%完成率,覆蓋率接近
  • Juicebox:Lessie表現的84.4%
  • Claude Code:75%完成率——此類別中最低

招聘——尋找具有特定技能、經驗和地點的候選人

  • Lessie: 相關性 74.8,覆蓋率 75.6,實用性 54.3——100%完成率
  • Exa, Juicebox:均為100%完成率
  • Claude Code:90%完成率
  • 招聘在所有平台中獲得的絕對分數最高——這是AI人物搜尋最成熟的用例

評估數據集

該基準測試使用了119個查詢,這些查詢是從招聘、銷售和研究領域的實際從業者工作流程中精心策劃的。這些不是合成測試案例——它們反映了專業人士在尋找人物時實際執行的搜尋。該數據集是多語言的(英語、葡萄牙語、西班牙語、荷蘭語),並由從業者驅動。

  • 招聘(30個查詢): 尋找具有特定技能、經驗水平和地點的候選人
  • B2B潛在客戶開發(32個查詢): 識別目標公司的決策者以進行銷售推廣
  • 專家 / 確定性(28個查詢): 具有可驗證正確答案或尋求特定領域專家的查詢
  • 網紅 / KOL(29個查詢): 根據利基、受眾和參與度在社交平台尋找內容創作者

三個評估維度衡量搜尋品質的獨立方面:相關性(排名品質)、覆蓋率(結果數量)和實用性(數據完整性)。這些結合起來構成總體得分。Lessie的AI人物搜尋在這些維度上表現出色。

AI人物搜尋基準測試方法論

評估流程是全自動且可重現的。每個平台的所有結果都經過即時網路來源的驗證——沒有自我報告的數據,沒有手動策劃。

步驟1:分解查詢。 像「柏林B輪新創公司的資深機器學習工程師」這樣的查詢會變成一個結構化的清單:職位、資歷、領域、公司階段、地點。這種分解定義了每個結果的評分標準。

步驟2:透過網路驗證。 每個平台返回的每個人物都會與LinkedIn、公司網站和社交資料進行核對。沒有自我報告的數據——只有可以在線上獨立確認的數據。這消除了平台偏見,確保了公平比較。這是AI人物搜尋準確性的關鍵。

步驟3:在三個軸上評分。 相關性(您找到正確的人了嗎?)、覆蓋率(有多少?)和實用性(個人資料數據是否真的有用?)。這三個分數結合為一個總體得分:(相關性 + 覆蓋率 + 實用性)/ 3。

我們測量什麼

相關性——加權nDCG@10。 衡量返回的人物是否符合查詢並正確排名。每個人物都經過網路驗證並根據明確標準進行評分。分數被填充到10個位置——返回較少結果會受到懲罰。這獎勵了頂部結果的精確度和召回率。

覆蓋率——TCR × 產出。 衡量每個查詢找到的合格人數。結合任務完成率(平台是否返回了任何結果?)和平均合格結果產出,上限為K=10。這獎勵了相關結果的可靠性和數量。

實用性——(C + E + A) / 3。 衡量返回的數據是否完整且可操作。平均三個子維度:結構完整性(C)、查詢特定證據(E)和可操作性(A)。一個只有姓名但沒有電子郵件、職稱或公司的個人資料,即使該人物相關,其實用性得分也會很低。

主要發現

在119個查詢的476次平台執行後,出現了幾種模式,揭示了當今AI人物搜尋的現狀以及每個平台的優勢或不足。

  • 在所有四個情境中排名第一。 Lessie是唯一在每個類別中都領先的平台——招聘、B2B潛在客戶開發、專家/確定性搜尋和網紅/KOL搜尋。沒有其他平台在一個以上的情境中排名第一。
  • 100%完成率。 每個查詢都返回了結果。沒有其他平台達到這一點——尤其是在其他平台沒有返回任何結果的利基和抽象搜尋中。返回零結果是單一來源平台獨有的失敗模式。
  • 最大的相關性差距:70.2 vs. 54.3 (+29%)。 排名品質差異在多標準查詢上最為明顯——結合了職位、資歷、行業和地點限制的搜尋。
  • 網紅是差距最大的。 Lessie總體得分62.3;亞軍得分43.2。單一來源平台在這裡表現最差,因為網紅數據分散在數十個社交平台中。Lessie的AI人物搜尋在網紅發現方面表現卓越。
  • 實用性是競爭最激烈的。 個人資料數據完整性是競爭最激烈的維度——所有平台得分都在42.7到56.4之間。這是該行業最有改進空間的地方。
  • 招聘是最具競爭力的。 三個平台總體得分都超過64分。這是現有工具表現最佳的情境——也是差距最微小的。以LinkedIn為中心的數據為所有平台提供了更強的基準。Lessie的AI人物搜尋在招聘領域依然保持領先。

開源: 完整的評估數據集、評分方法論和平台級結果均可供審查。我們相信透明的基準測試能推動整個行業向前發展。

FAQ

什麼是AI人物搜尋基準測試?

AI人物搜尋基準測試是一種標準化評估,用於測試不同平台尋找和返回人物資訊的表現。此基準測試使用119個真實世界的查詢,涵蓋招聘、B2B潛在客戶開發、專家搜尋和網紅發現——透過獨立的網路驗證,根據相關性、覆蓋率和實用性進行評分。

Lessie與Exa、Claude Code和Juicebox相比如何?

Lessie總體得分65.2,而Exa(55)、Claude Code(46)和Juicebox(45.8)。Lessie在所有四個情境類別中均領先,並實現了100%的查詢完成率。最大的差距在於相關性(比次優高出29%)和網紅/KOL搜尋(62.3 vs. 43.2)。請參閱——基準測試結果頁面上的完整比較。

AI人物搜尋基準測試方法論是開源的嗎?

是的。評估流程是全自動且可重現的。每個結果都經過即時網路來源的驗證——LinkedIn、公司網站和社交資料。數據集、評分公式和每個查詢的結果均可供獨立審查。

在此基準測試中,相關性、覆蓋率和實用性分別代表什麼?

相關性(加權nDCG@10)衡量返回的人物是否符合查詢並正確排名。覆蓋率(TCR × 產出)衡量每個查詢找到的合格結果數量。實用性((C + E + A) / 3)衡量返回的數據是否完整且可操作——包括聯繫資訊、當前職位和公司詳細資訊。

為什麼Lessie在網紅/KOL情境中表現最佳?

網紅數據分散在Instagram、TikTok、YouTube、Twitter、播客和新聞通訊中。依賴單一資料庫的單一來源平台會錯過大部分數據。Lessie的混合搜尋策略同時搜尋100多個來源,這就是為什麼它在此情境中得分62.3,而亞軍得分43.2。請在——Lessie網紅發現親自試用。

更智慧地搜尋。找到任何人。

一次搜尋即可橫跨專業網路、社交平台和學術資料庫。免費試用Lessie。

免費開始 →

相關文章