深度分析
阿里 Qwen3.7-Max 技術解析:長程推理、環境擴展與跨框架通用性
阿里巴巴旗下 Qwen 團隊發布 Qwen3.7-Max,將大型語言模型從短時生成推向「馬拉松式」代理人運作。該模型強調長程推理與環境擴展(environment scaling),在孤立伺服器上以未見過的硬體進行內核優化任務,連續自動運作約35小時、執行超過一千次工具呼叫並達到約10.0倍的幾何平均速度提升。
深度分析
阿里巴巴旗下 Qwen 團隊發布 Qwen3.7-Max,將大型語言模型從短時生成推向「馬拉松式」代理人運作。該模型強調長程推理與環境擴展(environment scaling),在孤立伺服器上以未見過的硬體進行內核優化任務,連續自動運作約35小時、執行超過一千次工具呼叫並達到約10.0倍的幾何平均速度提升。
深度分析
長程視覺語言推理需決定何時重新規劃。本文讓承諾深度成為模型內可學習變數,由單一VLM同時預測執行動作與持續步數,實驗在SlidingPuzzle與Sokoban展現顯著效能提升。結果在多種決策預算下顯示自適應承諾在成功率與行動效率間取得更好平衡。值得進一步研究
深度分析
大型語言模型在未明示規劃下仍能完成多步任務。本研究以 Qwen‑3 系列測試隱性規劃,發現規模越大內部規劃表徵越明顯,能提前影響詞彙選擇。結果顯示模型規模與規劃能力呈正相關,為未來多步推理提供方向。
深度分析
本研究針對大型語言模型在長程推理任務的時間信用分配問題提出 SPPO,將推理重新定義為序列層級情境式多臂賭徒,利用解耦標量價值函數獲取低變異優勢訊號,免除多樣本基線估計。實驗結果顯示其效能顯著優於標準 PPO,且與計算密集的群組方法相當,提升對齊效率。