深度分析
ViLegalNLI:以半自動化與跨模型驗證建立越南法律 NLI 基準
ViLegalNLI 推出越南首個大規模法律領域自然語言推理(NLI)資料集,收錄42,012對法條—命題句對並以二元標註(蘊涵/不蘊涵)。研究以半自動化流程結合大型語言模型生成假設句,並透過跨模型一致性與多階段驗證降低雜訊。
深度分析
ViLegalNLI 推出越南首個大規模法律領域自然語言推理(NLI)資料集,收錄42,012對法條—命題句對並以二元標註(蘊涵/不蘊涵)。研究以半自動化流程結合大型語言模型生成假設句,並透過跨模型一致性與多階段驗證降低雜訊。
深度分析
隨著大型語言模型在數學推理上展露實力,組合最佳化仍是未被充分測試的領域。研究者推出 NLCO 基準,使用自然語言描述的 43 種組合問題,直接讓模型產出離散解而不需程式碼或外部求解器。實驗發現模型在小規模實例上可保持可行性與解品質,但隨規模擁大效能下降,圖結構與瓶頸目標問題尤為挑戰。
VerifAI
本研究提出 VerifAI,一套針對生醫領域的問答搜尋引擎,結合檢索增強生成與事後聲明驗證。系統將答案拆解為原子聲明,並以微調的自然語言推理模型比對檢索證據,確保事實一致性。實驗顯示其在 HealthVer 基準上優於 GPT‑4,顯著降低幻覺式引用,提升答案可驗證性。