深度分析 以謂詞為中心的決策流程:SDP 在語言環境中重建 MDP 要素 語言型環境僅回傳文字,缺失MDP所需的狀態空間、觀察到狀態映射、經驗驗證轉移與終止判定。SDP讓代理在每步先以自然語言謂詞承諾期望狀態,再行動並驗證觀察,合格謂詞成為受證狀態,從而產生可定義的狀態軌跡。實驗在五項基準上無訓練下表現領先,且長程任務優勢更明顯。