因果鏈驗證 - Agents Report

深度分析

本研究首次系統性檢驗視覺─語言─行動（VLA）自駕模型的推理可信度，針對Alpamayo‑R1在100個真實模擬場景共300次推論進行量化驗證。作者以資訊論與反事實驗驗證框架，定義實體忠實度、動作忠實度與擾動敏感度，並依據可驗證條件衡量語言因果鏈與實際軌跡的一致性。