物理推理

深度分析

隨著大型語言模型（LLM）在科學問答上的應用擴大，研究發現模型的推理步驟常為臨時拼湊，缺乏可驗證的邏輯性。本文提出以「科學邏輯性」為核心的三維評估標準（邏輯忠實度、因果順序、推理進展），並設計兩種邏輯導向的指令微調（SFT）抽樣法：蒸餾式與推理風格轉移。

深度分析

研究聚焦視覺語言模型的物理推理能力，透過四種獎勵訊號比較其效能。結果顯示，以答案正確性為基礎的獎勵提升最大，且注意力權重獎勵在空間推理上有顯著改善，指出監督注意力是未來提升方向。