IRC-Bench:針對回憶敘事的隱含實體識別基準
回憶敘事以間接線索指涉實體。本研究提出IRC-Bench,用1994篇逐字稿與12337個維基連結實體評測非本地性實體識別,配對含實體與刪除實體版本,檢驗生成式大模型、密集檢索、RAG與微調等19種設定;開放世界由QLoRA調整的Llama3.1 8B表現最佳,閉環檢索則以微調DPR領先。
IRC-Bench:針對回憶敘事的隱含實體識別基準
回憶敘事常用間接線索指涉人物、地點或事件,單靠局部提及難以辨識。研究團隊提出IRC-Bench,專門評測這類「非本地性」隱含實體識別任務:關鍵提示分散在多處不連續子句,需從整段敘事推斷目標實體。
IRC-Bench包含25,136個樣本,來源為1,994篇逐字稿與12,337個維基資料連結實體,覆蓋11個主題領域。每個樣本同時提供一個Entity-Grounded Narrative(含目標實體)與一個Entity-Elided Narrative(刪除直接提及)的配對,用以測試模型在無明確名稱情況下的判識能力。
研究比較19種技術配置,涵蓋LLM生成、密集向量檢索、RAG與微調策略。實驗發現,在開放世界評測中,經QLoRA微調的Llama 3.1 8B取得最高精準度(exact match 38.94%;Jaccard 51.59%);在封閉世界的檢索任務,微調的DPR在Hit@1與Hit@10表現領先。團隊已對外釋出IRC-Bench的資料、程式碼與評估工具,利於後續驗證與方法改良。
延伸閱讀
- S2tory:結合 Story Spine Distillation 與 NEAgent 的角色弧線驅動劇本摘要
- MedStruct-S:面向 OCR 臨床報告的半結構化欄位與鍵值擷取基準
- SCARV 架構:以結構感知群集與多重種子聚合提高排序一致性
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。