深度分析 Fast‑Slow Training (FST):以提示族群與強化學習交替提升 LLM 後訓練效率 背景:大型語言模型常透過更新參數適應任務。方法:提出Fast‑SlowTraining,將慢速參數用強化學習更新,快速文本權重以提示族群演化並與模型交互。這讓訓練在多任務上更高效且保留模型可塑性。實驗涵蓋程式、數學與多跳事實驗證,顯示在多個任務上能以較少步數達到或超越僅參數更新的方法。