PIIBench:整合式個資偵測基準庫揭示跨域識別難題
研究指出現有個資偵測資源分散且標註互不相容。PIIBench整合十個公開資料集,將80多種來源標籤標準化為BIO格式並採頻率抑制與分層80/10/10切分。對八套既有系統評測顯示span-level F1均低於0.14,呈現明顯難度上升且資料更全面。
PIIBench 統一個資偵測基準庫
研究團隊提出 PIIBench,整合十個公開資料集,涵蓋合成個資、多語 NER 與金融註記文本,合計2,369,883筆標註序列與約3.35百萬個實體,並整理為48種標準PII類別。
作者建立一套標準化流程,將超過80種來源標籤映射到統一的 BIO 標註格式,對極罕見類別採頻率抑制,並以分層80/10/10切分保留來源分布,降低單一來源偏差。
為量化難度,團隊以八套已發表的系統做基準測試,範圍從規則引擎(Microsoft Presidio)、一般 NER(spaCy、BERT、XLM-RoBERTa、SpanMarker)到 PII 專用模型(Piiranha DeBERTa)與金融 NER 專家模型(XtremeDistil FiNER)。所有系統的 span-level F1 均低於0.14,最優系統在多數類別甚至呈現零召回,顯示跨域資料孤島與標註差異造成實務應用上的顯著挑戰。
PIIBench 被呈現為比任何單一來源資料集更難且更全面的評估標準,相關的資料建構流程與評測程式碼已公開於 GitHub,供社群進一步驗證與改進。
延伸閱讀
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。