大型語言模型（LLM） - Agents Report

深度分析

隨著大型語言模型（LLM）在科學問答上的應用擴大，研究發現模型的推理步驟常為臨時拼湊，缺乏可驗證的邏輯性。本文提出以「科學邏輯性」為核心的三維評估標準（邏輯忠實度、因果順序、推理進展），並設計兩種邏輯導向的指令微調（SFT）抽樣法：蒸餾式與推理風格轉移。