對比強化學習 - Agents Report

深度分析

PRTS 以對比強化學習將語言指令視為目標，讓機器人模型在離線軌跡中學會估算達成目標的可能性，提升長程規劃與零樣本執行。在 167 億標記的多樣化操作與推理資料上預訓練，於多項基準測試中超越既有方法，顯示目標可達性估計能大幅改善機器人執行成功率，同時為長期規劃與人為介入的復原提供支援。