深度分析 Trident:結合混合行動與物理先驗的安全多代理強化學習框架 在災區多機無人機協同提供行動邊緣運算時,必須同時處理離散/連續動作、即時安全約束與物理動力學。研究提出Trident框架,結合溫度校正離散梯度、Lyapunov信賴區域安全更新與物理啟發殘差評論家,實驗顯示違規率比MADDPG降低95.5%,比MACPO降低76.3%,且獎勵提升13.5%。