深度分析
CoT-Guard:以 4B 小型模型監控推理鏈與程式碼,強化供應鏈偵測
供應鏈攻擊與第三方路由器可能在使用者請求中植入隱藏目標,CoT-Guard提出以四十億參數等級的小型監控模型,透過監督式微調蒐集強監控示例,並以專門設計的強化學習在難樣本上提升泛化能力。該方法能同時分析推理鏈與生成程式碼,對提示操控與程式碼注入具更高偵測率,提供一種低成本的使用者端防護方案。
深度分析
供應鏈攻擊與第三方路由器可能在使用者請求中植入隱藏目標,CoT-Guard提出以四十億參數等級的小型監控模型,透過監督式微調蒐集強監控示例,並以專門設計的強化學習在難樣本上提升泛化能力。該方法能同時分析推理鏈與生成程式碼,對提示操控與程式碼注入具更高偵測率,提供一種低成本的使用者端防護方案。
深度分析
面對大型語言模型的知識截止問題,研究提出Parametric Skill Transfer(PaST),將在來源域由強化學習習得的推理與執行能力抽取成「技能向量」,並在目標模型完成輕量監督微調(SFT)後線性注入。PaST假定SFT與RL在參數空間上近乎正交,因此可把技能從來源域直接搬移到新知識的目標域,無需在目標域進行昂貴的RL訓練。
電子設計自動化
NSF於2024年舉辦AI與電子設計自動化工作坊,聚焦大型語言模型、圖神經網路、強化學習等技術在實體合成、邏輯合成、最佳化與驗證的應用,指出資料、可擴展性與安全性挑戰,建議加強跨領域合作與基礎研究,以加速硬體設計民主化。並呼籲建立開放資料庫與雲端運算資源。
深度分析
本篇系統性文獻回顧整理線性與線性化預測控制(MPC)與強化學習(RL)的整合方案,從文獻篩選建立多維分類,將 RL 在 MPC 架構中歸納為五大角色:規劃者、平衡器、結構調適、策略近似與守護者。文章交叉比對 RL 演算法類別、MPC 形式與成本函數結構,指出常見設計模式與關聯性,並整理樣本效率、計算複雜度、穩定性與閉環保證等實務瓶頸。