CASCADE - Agents Report | 代理人報告

深度分析

大型語言模型傳統分為預訓練與微調兩階段，部署後學習中斷成為適應性瓶頸。CASCADE 提出部署時學習（Deployment-Time Learning，DTL）框架，將經驗外部化為案例庫，透過神經情境 bandit 動態檢索並保留成功案例，僅以二元回饋驅動在線策略更新而不微調基礎模型。