LLM Reasoning - Agents Report

GPT-4.1-mini vs GPT-5-mini architecture comparison

深度分析

AI 策略推理的「支架」效應：GPT-5-mini 與 GPT-4.1-mini 架構對比分析

本研究探討結構化推理干預對 AI 經濟策略推理的影響。研究團隊利用 Hotelling 線性城市模型，對比 GPT-4.1-mini 與 GPT-5-mini 在五種條件下的表現。結果發現推理支架的效果取決於模型架構：承諾協議提升標準模型但損害推理模型，而原則分離則能優化推理模型並縮小執行差距。這顯示針對不同 AI 架構設計差異化推理支架，才能有效提升複雜策略推理能力。

CODI and COCONUT latent CoT trajectories

深度分析

解密 Latent CoT 黑盒子：利用動力系統分析揭露 CODI 與 COCONUT 的推理邏輯

面對潛在鏈式思考模型缺乏可解釋性的挑戰，研究團隊將隱藏空間的推理過程建模為動力系統，透過定量指標與定性投影分析推理軌跡的演化。研究發現 CODI 採收斂至穩定吸引子的分類策略，而 COCONUT 則表現出不穩定擴張的計算策略，且 SIM-CoT 能有效提升兩者的穩定性。此框架為優化潛在推理效能提供了新的可解釋性分析路徑。

深度分析

UNLOCK 框架：透過線性子空間對齊實現跨模型能力遷移

研究人員提出「萬能金鑰假說」，透過 UNLOCK 框架實現能力跨模型遷移。無需重新訓練，僅需線性對齊潛在子空間，即可將大型模型的推理能力「複製」到小模型中，在數學推理任務上展現出顯著的準確率提升，挑戰了傳統的知識蒸餾法。

LLM Reasoning

解碼 LLM 推理過程：揭秘「逐步資訊量假設」如何決定 AI 答案正確性

為什麼 AI 的內部熵值變化能預測其答案正確性？這項研究提出「逐步資訊量假設」（SIA），揭示 LLM 在推理時會透過累積資訊量來降低熵值，並證明此機制是由訓練過程誘導出的。透過分析 Gemma-2 與 LLaMA-3.2 等模型，研究揭示了 AI 推理的內部邏輯與正確性之關聯。