深度分析 RAG-DIVE:以 LLM 驅動的動態互動評估框架,診斷 RAG 系統的對話歷史與檢索行為 RAG-DIVE 提出一套面向多回合對話的動態評估流程,透過 LLM 模擬使用者發起多回合互動,並以三個模組——對話生成(CG)、對話驗證(CV)與對話評估(CE)——連動運作。CG 根據知識文件與先前回合自動提出可回答的追問,CV 篩選並修正低品質輸出,CE 則產出逐回合與整體多回合指標來衡量檢索與生成品質。