深度分析
「MViewRouter」以多視圖交替注意力與集合策略梯度提升組合路徑規劃效能
組合路徑規劃如 TSP、CVRP 受平面對稱影響。MViewRouter 以多視圖交替注意力與集合梯度內化 D4 對稱,讓決策具不變性。實驗證明在標準與實務基準上均達到競爭解品質與零樣本泛化,且較傳統測試時增強更穩定。預期此幾何等變性框架可擴展至 3D 約束路徑與其他車輛調度問題。
深度分析
組合路徑規劃如 TSP、CVRP 受平面對稱影響。MViewRouter 以多視圖交替注意力與集合梯度內化 D4 對稱,讓決策具不變性。實驗證明在標準與實務基準上均達到競爭解品質與零樣本泛化,且較傳統測試時增強更穩定。預期此幾何等變性框架可擴展至 3D 約束路徑與其他車輛調度問題。
深度分析
背景:可調資源控管是雲端部署的重要決策。方法:本文提出RLScale-Bench,統一訓練、架構與評估協議,將六種深度強化學習演算法與經校準的規則式HPA在六種負載與五個隨機種子下比較。結果:發現在成本面HPA普遍最優,惟在突發負載下某些RL可明顯降低SLO違規,凸顯基準校準與報酬工程的重要性。
Soft Actor-Critic (SAC)
在大規模並行模擬背景下,研究比較了PPO與SAC的差距,指出SAC在初期探索、截斷回報處理與獎勵傳播上存在三大問題;透過策略初始化校正、截斷敏感的評論目標與多步回傳估計等修正,實驗在多款腿型機器人任務上顯示SAC可彌補與PPO的性能差距並在部分任務超越。
深度分析
本研究系統評估了塑性介入(如Shrink&Perturb、Weight Clipping、Spectral Normalization、LayerNorm、ReDo和SAM)對深度強化學習(DRL)後門攻擊的影響。
深度分析
研究利用同步fMRI與VGDL遊戲資料,比較大型推理模型與深度強化學習在人類遊戲學習與腦部表徵上的表現。結果顯示LRM在行為效率與腦活動預測上均遠超RL基線。模型可直接以提示方式使用,無須針對單一遊戲微調,且在視覺、前額、紋狀體等腦區均提升預測表現。
深度強化學習
研究探討在持續學習情境下,機器人控制器是否會產生不隨任務改變的自我表徵。研究透過在模擬四足機器人上循序訓練三種移動行為,並以共活化神經元分群與跨循環一致性評估內部結構。結果發現存在一個持久子網路,其活動與構造跨行為保持穩定,其他群組則更具可塑性。此發現提供觀察深度強化學習控制器內部模組化的新方法。
深度分析
近期研究指出擴散規劃在稀疏步序列上表現優於單步規劃。Mixed-Density Diffuser 透過可調整的時間密度,使預測軌跡在關鍵區段更密集生成,避免過度稀疏導致效能下降。實驗顯示其在 Maze2D、Franka Kitchen 與 AntMaze 上均超越現有最佳模型,為 D4RL 基準樹立新紀錄。
時間轉移學習
研究針對都市密集交通的即時駕駛建議,自主性以粗粒度零階保持方式,持續時間0.1至40秒。提出時間轉移學習選擇源任務,提升零樣本轉移效能。實驗證明在混合交通情境下優於基線,此技術有望降低擁堵,提高車流通過率。
深度分析
在安全關鍵任務中,強化學習代理人需在動態環境下更新政策,同時保證安全性。SafeAdapt 透過 Rashomon 集合,先驗限定政策參數空間,使任何更新投影後仍符合安全約束。實驗於 Frozen Lake 與 Poisoned Apple 環境證實,該方法在適應過程中保持安全,避免了正則化基線的安全遺忘。
圖神經網路
研究聚焦於雲端排程中工作流程 DAG 的能源感知問題,提出結合圖神經網路與深度強化學習的排程器。實驗顯示,當訓練與部署環境的圖結構不一致時,排程器性能顯著下降,原因在於訊息傳遞受阻與策略泛化失效。此結果突顯現有 GNN 排程方法在分布轉移下的限制,需開發更魯棒的圖表示。
深度分析
自動規劃需行動模型,傳統需離線學習。RAMP 以深度強化學習線上收集資料,同時抽取數值行動模型並規劃未來動作,形成正向回饋迴路。實驗證實其在可解性與計畫品質上顯著優於 PPO,顯示線上混合學習的潛力。