深度分析 自適應承諾深度:在 VLM 中學習何時重規劃以優化長程視覺推理 長程視覺語言推理需決定何時重新規劃。本文讓承諾深度成為模型內可學習變數,由單一VLM同時預測執行動作與持續步數,實驗在SlidingPuzzle與Sokoban展現顯著效能提升。結果在多種決策預算下顯示自適應承諾在成功率與行動效率間取得更好平衡。值得進一步研究