情境Bandit - Agents Report

速報

科學計算自動化不只要產生可執行程式，還要確保決策可追溯與結果一致。本文提出結合情境Bandit、結構化代理間通訊與語意檢查點的多代理框架，以維持動作到結果的因果連貫。實驗以敏感度分析與不確定度量測為例，顯示框架能改善收斂與魯棒性，降低語意漂移對策略學習的破壞。