結構化推理 - Agents Report

深度分析

離散流模型在數獨、Zebra 等約束滿足問題上表現不佳，研究提出 Flow Reasoning Models（FRM），結合自我條件化（self‑conditioning）與固定點穩定性驗證，在測試時以大量候選解並篩選內部穩定解，使求解率從原本約 36% 提升至近 100%。

速報

背景：DPO能學習偏好但難給多步推理段落回饋。方法：HiPO把回應拆成查詢與背景、推理步驟、答案三段，對各段分別計算並加權DPO損失。結果：在Math Stack Exchange偏好資料上微調多款7B模型後，HiPO在數學基準上優於DPO且展現更佳組織與邏輯一致性。

深度分析

研究針對大型語言模型在具身任務的世界建模不足，提出以 UML 為基礎的物件導向世界模型 (OOWM)。透過類別圖與活動圖將感知與規劃結構化，並結合三階段訓練與結果導向強化學習。實驗顯示在 MRoom-30k 基準上提升規劃一致性與執行成功率。