風險趨避強化學習 風險趨避強化學習:結合馬可夫動態風險度量、mini-batch 與多模式風險近似的特徵化 Q 值框架 本文研究有限時域馬可夫決策下的風險趨避問題,提出一類稱為mini-batch的馬可夫相容風險度量,並引入多模式風險近似來擴展線性MDP假設。透過特徵化的Q值與多模式Q因子近似,作者證明了高機率下的遺憾界限,並示範於隨機指派與短期多臂賭博問題。