深度分析
以科學邏輯性強化LLM的物理推理:三維評估與80k邏輯化訓練集
隨著大型語言模型(LLM)在科學問答上的應用擴大,研究發現模型的推理步驟常為臨時拼湊,缺乏可驗證的邏輯性。本文提出以「科學邏輯性」為核心的三維評估標準(邏輯忠實度、因果順序、推理進展),並設計兩種邏輯導向的指令微調(SFT)抽樣法:蒸餾式與推理風格轉移。
深度分析
隨著大型語言模型(LLM)在科學問答上的應用擴大,研究發現模型的推理步驟常為臨時拼湊,缺乏可驗證的邏輯性。本文提出以「科學邏輯性」為核心的三維評估標準(邏輯忠實度、因果順序、推理進展),並設計兩種邏輯導向的指令微調(SFT)抽樣法:蒸餾式與推理風格轉移。
深度分析
研究聚焦視覺語言模型的物理推理能力,透過四種獎勵訊號比較其效能。結果顯示,以答案正確性為基礎的獎勵提升最大,且注意力權重獎勵在空間推理上有顯著改善,指出監督注意力是未來提升方向。