Alper:以標籤傳播重構髒亂實體解析
實體解析是從雜亂資料辨識相同實體的核心任務。Alper把比對和聚類合併為一個不斷演進的全域實體圖,透過標籤傳播同時修正結構與標記。它會將便宜但弱的圖傳播訊號與昂貴但強的LLM成對查詢交互整合,並在有限查詢預算下用貪婪演算法選擇訊號。實驗在多個基準資料集上顯示其整體表現優於階段式流水線。
Alper:把比對與聚類變成一個動態的圖傳播問題
實體解析長久以來依賴阻斷、比對、聚類三段式流程,但這種串連式工作流會產生稀疏且靜態的實體圖,因阻斷失敗出現缺邊,因比對錯誤產生噪聲,導致錯誤擴散與次優聚類。
Alper 主張比對與分群互為補強,提出一套以機率標籤傳播為核心的統一框架:在一個全域且隨時間演進的實體圖上反覆更新節點標籤與邊權,透過圖傳播補足廉價但訊號弱的信息,再以大型語言模型的成對查詢補強高置信度判斷。
為了在有限查詢預算下達到成本效益,研究團隊將訊號選擇形式化為一個約束式優化問題,採用具理論保證的貪婪演算法近似最大化邊際增益。實驗結果顯示,Alper 在多個基準資料集上持續超越傳統階段式流水線,能更有效地減少錯配與恢復遺失連結,進而產出更準確的實體叢集。
延伸閱讀
- 大型語言模型文化對齊評估:多語言敘事道德生成實驗與結果
- 大型語言模型幽默對齊基準:以 Cards Against Humanity 測試結果分析
- OmniBehavior:首個以真實資料建構的跨情境長時序使用者行為模擬基準
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。