對話評估 - Agents Report

技術架構圖展示 RAG-DIVE 的三個核心模組：CG 對話生成、CV 對話驗證與 CE 對話評估。圖中以深潛模擬診斷 RAG 系統在多回合互動中的正確性、忠實度與檢索相關度，強調從靜態測試轉向動態診斷的技術趨勢。

深度分析

RAG-DIVE：以 LLM 驅動的動態互動評估框架，診斷 RAG 系統的對話歷史與檢索行為

RAG-DIVE 提出一套面向多回合對話的動態評估流程，透過 LLM 模擬使用者發起多回合互動，並以三個模組——對話生成（CG）、對話驗證（CV）與對話評估（CE）——連動運作。CG 根據知識文件與先前回合自動提出可回答的追問，CV 篩選並修正低品質輸出，CE 則產出逐回合與整體多回合指標來衡量檢索與生成品質。