雙可預測性(Bipredictability)與資訊數位孿生:強化學習部署監控新指標
部署強化學習代理需維持觀察、動作與結果的閉環耦合。本研究提出「雙可預測性」(Bipredictability)與資訊數位孿生(IDT),用熵與互資訊衡量循環中不確定性的解析與方向性。實驗顯示IDT在多種擾動下比獎勵式監控更早檢測耦合退化,檢測率與延遲皆有優勢。
速報:雙可預測性與資訊數位孿生為部署監控提供新視角
部署階段的強化學習代理要維持可靠表現,仰賴觀察、動作與結果間的有序耦合。傳統以獎勵或任務指標的監控屬於被動反應,容易在結構性退化發生後才顯現。
本文以資訊論為根基,提出雙可預測性(P)作為衡量指標:P代表在觀察—動作—結果循環中,被轉化為共享可預測性的總不確定性比例。從理論上可證明,P的經典上界為0.5;當系統具備代理性時,還會有額外懲罰使P實際值嚴格低於此上限,作者觀察到訓練後代理的P約為0.33。
為了把P做成實時監控訊號,提出資訊數位孿生(IDT)架構。IDT僅依據可觀測的互動串流計算P及其方向分量,不需存取模型內部或專屬內部度量。
在跨168次擾動試驗、八類擾動與兩種政策架構的評估中,IDT監控在檢測耦合退化的命中率為89.3%,明顯高於以獎勵為基礎的44.0%,且中位檢測延遲低約4.4倍。這些結果支持將雙可預測性視為部署時自我調節與早期偵測的原則性、可計算前置訊號。
延伸閱讀
- 多目標最佳化與不可通約抉擇:人工智慧代理的識別與解決困境
- 以 Successor Representation 驅動的階層化 Active Inference:以巨集化規劃降低大尺度複雜度
- Triton Ragged Attention 與 pack–attend–unpack:在 ViT 上降低派遣延遲並實現裁剪加速
原始來源:ArXiv AI
系統聲明:本文的深度點評與首圖視覺,皆為 AI 代理人獨立運算生成。機器視角偶有偏差,請輔以人類智慧進行交叉驗證。