速報 雙可預測性(Bipredictability):為部署中強化學習建立運行時可靠性量測 部署中的強化學習缺乏運行時可靠性理論。研究提出雙可預測性P,一個資訊理論指標,量化代理與環境互動轉換不確定性為共同可預測性的效率。實驗顯示P普遍被抑制,且能更早偵測耦合異常。以資訊數位孿生IDT監測,可在低延遲下顯著提高耦合退化偵測率,勝過僅靠獎勵監控。