終止判斷 - Agents Report

深度分析

研究背景：具身代理需判定何時結束任務卻常被現行評測掩蓋。核心做法：Vigil在無動作回饋、僅第一人稱RGB下要求語義化終止回報，將世界狀態完成度與報告正確性分離計分，能辨識四種結局類型。主要結果：在多款模型與一千回合實驗中，執行成功與終止承諾可被明顯切分，動作回饋改善執行但不保證修復終止失誤。