深度分析 RLDX-1:MSAT 驅動的視覺-語言-動作策略,結合長時記憶與物理感測 面對現有視覺-語言-動作模型在動態與接觸任務的短板,RLDX-1以Multi-Stream Action Transformer整合影像、運動感知、長時記憶與物理感測;並透過合成稀有場景資料、三階段訓練與推理優化,在仿真與實機基準上達到顯著提升,部分任務成功率超過八成。