深度分析 Vigil:針對具身代理的可量化終止承諾評測框架 研究背景:具身代理需判定何時結束任務卻常被現行評測掩蓋。核心做法:Vigil在無動作回饋、僅第一人稱RGB下要求語義化終止回報,將世界狀態完成度與報告正確性分離計分,能辨識四種結局類型。主要結果:在多款模型與一千回合實驗中,執行成功與終止承諾可被明顯切分,動作回饋改善執行但不保證修復終止失誤。