終身學習 - Agents Report

深度分析

自駕車在實際部署會遭遇長尾情境，傳統靠專家示範難以即時修正。研究提出R2LPL框架，透過卷展檢索將可恢復的失誤轉為監督目標，並以終身學習累積校正知識。實驗顯示僅經少量迭代，即可將中等表現的規劃器提升至最新水平，特別在Test14‑hard測試上表現突出。

深度分析

面對動作後果與資源限制的互動環境，代理人若能向教師詢問程序性「如何做」問題，便能減少不確定性並填補知識缺口。How²框架設計一個以記憶為核心的學生—教師流程：代理人先查記憶，若無相關或不再適用，則向教師提問，將回覆解析為與當前狀態脫鉤的抽象子目標並存入鍵值記憶以便重用。

深度強化學習

研究探討在持續學習情境下，機器人控制器是否會產生不隨任務改變的自我表徵。研究透過在模擬四足機器人上循序訓練三種移動行為，並以共活化神經元分群與跨循環一致性評估內部結構。結果發現存在一個持久子網路，其活動與構造跨行為保持穩定，其他群組則更具可塑性。此發現提供觀察深度強化學習控制器內部模組化的新方法。