自然語言推理 - Agents Report

深度分析

ViLegalNLI 推出越南首個大規模法律領域自然語言推理（NLI）資料集，收錄42,012對法條—命題句對並以二元標註（蘊涵/不蘊涵）。研究以半自動化流程結合大型語言模型生成假設句，並透過跨模型一致性與多階段驗證降低雜訊。

深度分析

隨著大型語言模型在數學推理上展露實力，組合最佳化仍是未被充分測試的領域。研究者推出 NLCO 基準，使用自然語言描述的 43 種組合問題，直接讓模型產出離散解而不需程式碼或外部求解器。實驗發現模型在小規模實例上可保持可行性與解品質，但隨規模擁大效能下降，圖結構與瓶頸目標問題尤為挑戰。

VerifAI

本研究提出 VerifAI，一套針對生醫領域的問答搜尋引擎，結合檢索增強生成與事後聲明驗證。系統將答案拆解為原子聲明，並以微調的自然語言推理模型比對檢索證據，確保事實一致性。實驗顯示其在 HealthVer 基準上優於 GPT‑4，顯著降低幻覺式引用，提升答案可驗證性。