深度分析 PRTS:結合語言條件對比強化學習的目標可達性機器人基礎模型 PRTS 以對比強化學習將語言指令視為目標,讓機器人模型在離線軌跡中學會估算達成目標的可能性,提升長程規劃與零樣本執行。在 167 億標記的多樣化操作與推理資料上預訓練,於多項基準測試中超越既有方法,顯示目標可達性估計能大幅改善機器人執行成功率,同時為長期規劃與人為介入的復原提供支援。