深度分析 ROSE:以使用者意圖為核心的 NL2SQL 評估指標解析 執行正確率在 NL2SQL 評估上已顯不足。ROSE 以使用者意圖為核心,採 Prover‑Refuter 兩階段判斷,先獨立評估語意,再以真實 SQL 進行對抗校正。實驗顯示其與專家一致性領先 24%。