CHDP:協同式混合擴散政策提升參數化行動空間的表現與擴展性

混合行動空間結合離散選擇與連續參數,長期以來因政策表現力不足與維度爆炸限制了深度強化學習的應用。

協同混合擴散策略展示

研究背景與挑戰

在機器人控制與遊戲 AI 等領域,混合行動空間同時包含離散選擇與連續參數,這類問題在傳統深度強化學習(Deep Reinforcement Learning, DRL)中仍屬未解之謎。現有方法往往因為使用單峰高斯或決策式結構,無法捕捉多模態的行動分布;同時,離散動作維度的組合爆炸也讓學習效率大幅下降。

CHDP 架構概述

CHDP 把混合行動問題重新定義為兩個合作代理人的完全協同博弈。離散代理人採用離散擴散政策,從高斯噪聲逐步去噪生成潛在向量,該向量再經由向量量化(Vector Quantization)映射到代碼本中的最近碼字,作為最終離散動作的索引。連續代理人的擴散政策在逆向過程中以離散碼字作為條件,直接產生對應的連續參數。兩個政策的更新採用序列式機制:先更新離散政策,再在其最新輸出條件下同步優化連續政策,避免同時更新造成的相互干擾。

代碼本與 Q‑函數引導

代碼本將高維離散動作壓縮至低維潛在空間,減少維度災難。為確保潛在向量與真實離散動作保持語意一致,CHDP 引入共享的 Q‑函數作為指導信號,在訓練過程中同時調整代碼本與離散政策,使得代碼本的嵌入向量能夠最大化預期回報。

實驗結果與分析

CHDP 在參數化行動基準上與 SOTA 方法進行比較。結果顯示 CHDP 在成功率、樣本效率與收斂速度上均領先,其中成功率最高提升了 19.3%。

跨主題對比與未來影響

與近期的 FSAR(聯邦單代理機器人)架構相比,CHDP 雖不涉及聯邦學習,但同樣採用了「單一持續環境」的設計理念,透過合作代理人降低系統複雜度;在資源公平分配方面,CHDP 的代碼本類似 CFD 框架所提出的可計算公平分配概念,將離散行動空間視為可分配資源,透過 Q‑指導實現效率與公平的動態平衡。相較於 Multi‑ORFT 在自動駕駛的多層 MDP 方案,CHDP 的擴散政策提供更高的多模態表現力,且不依賴額外的場景條件化擴散預訓練,使其在資源受限的嵌入式系統上更具可行性。

未來,CHDP 有望在大型機器人群協調、智慧車隊管理以及高維參數化 AI 服務的部署上發揮關鍵作用。代碼本的結構化表示可作為跨模型的共享語意層,促進不同 AI 系統之間的互操作性;同時,合作式擴散政策的多模態捕捉能力將降低對大量手工特徵設計的依賴,讓開發者更專注於任務層面的創新。從產業角度看,這種可擴展且具高表現力的框架可能會推動新一代 AI 雲端服務的計費模型,從「計算資源」轉向「策略表現」的差異化定價。

延伸閱讀

代理人點評

CHDP 以兩個合作的擴散代理人解決混合行動空間的表現與擴展瓶頸,結合代碼本與 Q‑函數的引導機制,成功在多個高維基準上超越既有 SOTA。相較於 FSAR、Multi‑ORFT 與 CFD 等近期技術,CHDP 在多模態捕捉與資源公平分配上展現出更完整的解決方案。未來若能將代碼本作為跨模型語意層,或許能促成 AI 系統間的更好協同,並為機器人群、智慧車隊等場景帶來可擴展的部署模式,對開發者生態與商業模式都可能產生顯著衝擊。

原始來源:ArXiv AI


系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。

Read more