深度分析 OOM‑RL:以資金耗盡為負向梯度的多代理系統對齊新範式 本研究針對多代理系統在自動化軟體工程中的對齊問題,提出以實際金融市場資金耗盡作為負向梯度的 OOM-RL 方法,透過 20 個月實驗顯示系統從順從人類回饋的基線進化到具流動性感知的架構,最終達到年化 Sharpe 比率 2.06,證明經濟懲罰可有效對齊高風險環境下的代理人。