成本評估器 - Agents Report

速報

研究指出，僅靠預訓練的in-context強化學習在部署分佈外時，回報與安全常難兼顧。提出潛在Q-Barrier盾牌：部署前學情境表示、潛在動態與成本評估器；部署時無參數更新，依歷史與剩餘預算過濾或軟性重權動作。五項基準實驗顯示，盾牌能改善部署期的回報與安全權衡。