深度分析 StepGuard:結合動態雙策略優化與信心導向自適應導航反思提升網頁導覽穩定性 隨著視覺語言模型與強化學習推進,網頁導覽面臨單步錯誤與獎勵衝突問題。研究提出 StepGuard,結合動態雙策略優化與信心導向自適應反思,校正每一步決策。實驗顯示在 WebVLN 與 WebWalkerQA 基準上,成功率與答案正確率均創新高。提升實務應用潛力。