Sokoban - Agents Report | 代理人報告

深度分析

本研究反向解構一個用於Sokoban的卷積遞歸神經網路，發現其在測試時計算量增益下，透過方向通道、長短期路徑與WTA競爭，形成類似雙向搜尋的計畫與轉移模型，並以通道幅度作為價值函數引導回溯與剪枝。研究也指出網路分別處理每個箱子，非統一狀態表徵。