VLA - Agents Report | 代理人報告

深度分析

CaB：利用 Boundary‑Phase Tokens 提升視覺語言動作代理的切換與控制

VLA代理在短指令序列切換時易出錯，研究提出Completion at the Boundary（CaB）模型，利用Before/Hit/After三階段標記形成雙向BPT後驗分布，同時提供when切換介面與how控制條件。Minecraft測試顯示CaB提升複合任務成功率與交接品質。

深度分析

視覺─語言─行動（VLA）駕駛的推理忠實度評估：Alpamayo 實驗揭示因果鏈脆弱性

本研究首次系統性檢驗視覺─語言─行動（VLA）自駕模型的推理可信度，針對Alpamayo‑R1在100個真實模擬場景共300次推論進行量化驗證。作者以資訊論與反事實驗驗證框架，定義實體忠實度、動作忠實度與擾動敏感度，並依據可驗證條件衡量語言因果鏈與實際軌跡的一致性。

深度分析

AttenA+：以速度加權的動作注意力，提升 VLA/WAM 的末端精準控制

機器人基礎模型常把每一步當一樣重要，忽略動作在物理層的差異。AttenA+用末端速度反向加權，優先學習慢速高精度階段，能在Libero與RoboTwin基準顯著提升成功率並改善最後一公分精準度。此方法為可插拔優化項，不改動模型結構，並在Franka機械手臂實驗中驗證了跨任務的一致增益。

VLA

BioProVLA-Agent：以 VLA 與 AugSmolVLA 驅動的平價閉環濕實驗自動化系統

生物實驗室自動化常受非結構化協議、透明或反光耗材與長流程驗證需求限制，降低可普及性。BioProVLA-Agent 提出以自然語言協議為介面、結合 Tailored LLM 協議代理、VLM-RAG 視覺驗證代理與輕量 VLA 執行代理的多代理閉環框架，並開發 AugSmolVLA 線上視覺擾動增強策略以提升透明容器與高曝光場景的穩定性。