深度分析 Infra‑Bayesian 強化學習:以 Knightian 不確定性下的最壞期望提升策略魯棒性 研究指出在可表示性失效與策略相依環境下經典貝式強化學習可能產生誤判。本研究以InfraBayesian將不確定性表示為集合並採最差情境評估,於Bandit與Newcomb類決策示範比傳統方法更佳的最差表現。此舉強調區分隨機性與Knightian不確定性對策略選擇的影響。