深度分析 利用 Verdict‑and‑Refinement 方案優化 FOLIO、MALLS NL‑to‑FOL 標註與 LLM 評估 本研究檢視FOLIO與MALLS基準,發現約39%與36%標註錯誤,並提出LLM輔助審核框架,使人工校正僅需檢視24%與13%資料即可達90%正確率,修正後三款主流LLM在測試上提升9至22個百分點,顯示資料品質對神經符號AI評估關鍵與未來發展有關。