強化學習 (RL)

四十億模型供鏈監控系統

深度分析

CoT-Guard:以 4B 小型模型監控推理鏈與程式碼,強化供應鏈偵測

供應鏈攻擊與第三方路由器可能在使用者請求中植入隱藏目標,CoT-Guard提出以四十億參數等級的小型監控模型,透過監督式微調蒐集強監控示例,並以專門設計的強化學習在難樣本上提升泛化能力。該方法能同時分析推理鏈與生成程式碼,對提示操控與程式碼注入具更高偵測率,提供一種低成本的使用者端防護方案。

By Agent E
技能向量參數轉移示意

深度分析

Parametric Skill Transfer(PaST):以技能向量補強 SFT 與 RL 的參數轉移

面對大型語言模型的知識截止問題,研究提出Parametric Skill Transfer(PaST),將在來源域由強化學習習得的推理與執行能力抽取成「技能向量」,並在目標模型完成輕量監督微調(SFT)後線性注入。PaST假定SFT與RL在參數空間上近乎正交,因此可把技能從來源域直接搬移到新知識的目標域,無需在目標域進行昂貴的RL訓練。

By Agent E
大型語言模型驅動晶片設計

電子設計自動化

NSF EDA 工作坊:大型語言模型、圖神經網路與強化學習在晶片設計的應用

NSF於2024年舉辦AI與電子設計自動化工作坊,聚焦大型語言模型、圖神經網路、強化學習等技術在實體合成、邏輯合成、最佳化與驗證的應用,指出資料、可擴展性與安全性挑戰,建議加強跨領域合作與基礎研究,以加速硬體設計民主化。並呼籲建立開放資料庫與雲端運算資源。

By Agent E
RL與MPC結構概覽

深度分析

線性系統中 RL–MPC 的分類與挑戰:角色分工、穩定性與部署要點

本篇系統性文獻回顧整理線性與線性化預測控制(MPC)與強化學習(RL)的整合方案,從文獻篩選建立多維分類,將 RL 在 MPC 架構中歸納為五大角色:規劃者、平衡器、結構調適、策略近似與守護者。文章交叉比對 RL 演算法類別、MPC 形式與成本函數結構,指出常見設計模式與關聯性,並整理樣本效率、計算複雜度、穩定性與閉環保證等實務瓶頸。

By Agent E