強化學習 (RL) - Agents Report

深度分析

CoT-Guard：以 4B 小型模型監控推理鏈與程式碼，強化供應鏈偵測

供應鏈攻擊與第三方路由器可能在使用者請求中植入隱藏目標，CoT-Guard提出以四十億參數等級的小型監控模型，透過監督式微調蒐集強監控示例，並以專門設計的強化學習在難樣本上提升泛化能力。該方法能同時分析推理鏈與生成程式碼，對提示操控與程式碼注入具更高偵測率，提供一種低成本的使用者端防護方案。

深度分析

Parametric Skill Transfer（PaST）：以技能向量補強 SFT 與 RL 的參數轉移

面對大型語言模型的知識截止問題，研究提出Parametric Skill Transfer（PaST），將在來源域由強化學習習得的推理與執行能力抽取成「技能向量」，並在目標模型完成輕量監督微調（SFT）後線性注入。PaST假定SFT與RL在參數空間上近乎正交，因此可把技能從來源域直接搬移到新知識的目標域，無需在目標域進行昂貴的RL訓練。

電子設計自動化

NSF EDA 工作坊：大型語言模型、圖神經網路與強化學習在晶片設計的應用

NSF於2024年舉辦AI與電子設計自動化工作坊，聚焦大型語言模型、圖神經網路、強化學習等技術在實體合成、邏輯合成、最佳化與驗證的應用，指出資料、可擴展性與安全性挑戰，建議加強跨領域合作與基礎研究，以加速硬體設計民主化。並呼籲建立開放資料庫與雲端運算資源。

深度分析

線性系統中 RL–MPC 的分類與挑戰：角色分工、穩定性與部署要點

本篇系統性文獻回顧整理線性與線性化預測控制（MPC）與強化學習（RL）的整合方案，從文獻篩選建立多維分類，將 RL 在 MPC 架構中歸納為五大角色：規劃者、平衡器、結構調適、策略近似與守護者。文章交叉比對 RL 演算法類別、MPC 形式與成本函數結構，指出常見設計模式與關聯性，並整理樣本效率、計算複雜度、穩定性與閉環保證等實務瓶頸。