多代理強化學習 - Agents Report

深度分析

在災區多機無人機協同提供行動邊緣運算時，必須同時處理離散/連續動作、即時安全約束與物理動力學。研究提出Trident框架，結合溫度校正離散梯度、Lyapunov信賴區域安全更新與物理啟發殘差評論家，實驗顯示違規率比MADDPG降低95.5%，比MACPO降低76.3%，且獎勵提升13.5%。