大型推理模型 - Agents Report

深度分析

PUMA 框架：以相位-動量對齊監控大型推理模型推理品質

大型推理模型常因過度思考浪費運算，現有方法又難即時區分有效探索與無效停滯。本研究提出相位-動量對齊假說，開發 PUMA 框架，透過輕量級熵監控與事件觸發的幾何診斷，準確判定模型是否陷入認知空轉。實驗證明 PUMA 能在不增加訓練成本下顯著提升準確率與效率的平衡。

速報

Epi2Diff 框架：以大型推理模型推斷學生題目難度

研究聚焦於教育測驗題目難度預測，提出 Epi2Diff 框架將大型推理模型的推理痕跡轉換為認知情節序列，結合語意特徵以提升預測準確度。實驗顯示在四個真實資料集上均優於現有基線，SAT 測試更獲得 8.1% 的相對提升。結果表明較難題目會產生更迭代且以實作為主的情節動態，證明此方法具可解釋性與實用性。

深度分析

「ReaORE」：大型推理模型驅動的漸進式 OpenRE 關係抽取框架

OpenRelationExtraction旨在從未見關係中抽取資訊。ReaORE透過大型推理模型分兩階段：關係過濾與細粒度對比推理，結合嵌入相似度提升覆蓋率。實驗顯示在FewRel與TACRED上超越現有基線，提升分類精度與聚類指標。為未來資訊抽取提供新方向。

深度分析

AdaMame‑GRPO：提升大型推理模型多語言一致性與 token 效率的雙階段訓練方法

大型推理模型在非英文查詢常出現語言崩潰。AdaMame 透過兩階段 SFT+RL，使用查詢條件對齊因子自適應調整語言，兼顧正確率與語言一致性。實驗顯示在 12 種語言上，同時提升答案正確率與語言忠實度，且降低 token 用量，此方法亦為未來多語言 AI 部署提供可行路徑。

深度分析

步驟感知溫度縮放 (ReSET) 提升 NVFP4 大型推理模型的精度與效能

NVFP4低精度能減少推理成本，但在大型推理模型上會降低正確率。研究提出ReSET以步驟熵調整溫度，並設計小批次CUDA‑corekernel，實測提升2點準確度與最高2.5倍解碼速度，同時克服Tensor‑Core小批次佔用低問題，為邊緣AI部署深層模型提供可行路徑。

深度分析

從自洽到生成‑驗證：LRM 在 PlanBench 與 Mystery Blocksworld 的表現與挑戰

大型推理模型在計畫與推理基準上取得突破，研究對比測試時擴展與傳統LLM的自洽與生成‑測試框架，指出缺乏外部驗證易產生幻覺與過度自信，提出混合驗證架構降低風險，預示未來開發者將更依賴可靠的驗證機制與跨模型協同。以PlanBench與Mystery Blocksworld為例，驗證模型在更大規模與不可解問題仍易產生錯誤計畫。

深度分析

「行為預測器」利用單一推理軌跡提升大型推理模型的可解釋性與效率

隨著大型推理模型產生長篇推理序列，傳統以解釋預測行為的方法難以套用。本研究提出行為預測器，直接從單一推理軌跡學習預測模型重跑答案一致性與輸入變動敏感度。實驗顯示，預測器在三個推理資料集上較GPT‑5.4與ClaudeOpus 4.6更準確，且推理成本僅為其千分之一。

Infographic showing the SLAT framework compressing AI reasoning segments by ~50% while maintaining accuracy and resource efficiency.

速報

段落級自適應裁剪 (SLAT) 提升大型推理模型的效率與準確度

大型推理模型在鏈式思考（CoT）上雖有突破，但常產生冗長的推理段落，導致計算資源浪費且未提升正確率。研究發現，低邊際效益的高機率段落是低效率的根源，於是提出 Segment-Level Adaptive Trimming（SLAT）框架，利用強化學習在正確度與長度的權衡下，選擇性壓縮冗餘段落。

深度分析

大型推理模型在VGDL互動遊戲中重現人類學習行為並與fMRI腦部表徵對齊

研究利用同步fMRI與VGDL遊戲資料，比較大型推理模型與深度強化學習在人類遊戲學習與腦部表徵上的表現。結果顯示LRM在行為效率與腦活動預測上均遠超RL基線。模型可直接以提示方式使用，無須針對單一遊戲微調，且在視覺、前額、紋狀體等腦區均提升預測表現。

深度分析

Trust 框架：利用分層有向無環圖與因果互動圖實現去中心化大型推理模型與多代理系統驗證

大型語言模型推進多步驟推理，驗證成瓶頸。Trust框架以分層有向無環圖（HDAG）與因果互動圖（CIG）結合去中心化審計網路，降低單點失效、提升可擴展性與隱私保護，預計重塑高風險AI部署流程。同時引入三層審計者架構，從計算檢查到專家復核全程可追溯。