深度分析 閃爍多臂賭徒 (FMAB):動態可達圖下的慵懶隨機漫步兩階段策略與次線性遺憾分析 研究從災後偵搜情境出發,探討可用動作會隨時間閃爍的決策問題。提出閃爍多臂賭徒(FMAB),以隨機圖表示局部可達性,結合慵懶隨機漫步探索與導航承諾策略來識別與利用最優位置。理論上在i.i.d.ER與邊緣馬可夫圖下證明次線性遺憾並以模擬驗證效能。