重規劃策略 - Agents Report

深度分析

長程視覺語言推理需決定何時重新規劃。本文讓承諾深度成為模型內可學習變數，由單一VLM同時預測執行動作與持續步數，實驗在SlidingPuzzle與Sokoban展現顯著效能提升。結果在多種決策預算下顯示自適應承諾在成功率與行動效率間取得更好平衡。值得進一步研究