端對端自駕
PaIR-Drive:平行式協同模仿與強化學習框架提升端對端自駕表現
端對端自駕依賴模仿學習受示範限制。PaIR-Drive 以平行支路同時進行模仿與強化學習,避免策略漂移。實驗顯示其在 NAVSIM 基準上達到 91.2 PDMS 與 87.9 EPDMS,表現優於傳統微調。
端對端自駕
端對端自駕依賴模仿學習受示範限制。PaIR-Drive 以平行支路同時進行模仿與強化學習,避免策略漂移。實驗顯示其在 NAVSIM 基準上達到 91.2 PDMS 與 87.9 EPDMS,表現優於傳統微調。
深度分析
研究指出,強化學習後訓練的大型語言模型會產生自我反思能力。作者提出兩階段決策抽樣假說,將策略分為生成抽樣與驗證決策,並以梯度歸因說明 RL 超越 SFT 的原因。此發現為理解 LLM 自校正機制提供理論基礎,也暗示未來可透過優化決策層提升模型通用性。
深度分析
為解決影像生成模型偏好對齊的挑戰,研究者引入聆聽者回饋式強化學習框架,讓獨立視覺語言模型評估推理鏈的信心。此方法在 ImageReward 基準上取得 67.4% 的最高準確率,並在大型人類偏好資料集上提升最高 6%,同時減少推理矛盾,展示了可擴展的對齊路徑。
ActivityEditor
人類移動模型在城市應用中不可或缺,然而資料稀缺限制了傳統方法。ActivityEditor 透過雙 LLM 代理,先以人口統計先驗生成活動意圖,再由編輯代理迭代修正以符合物理規律。實驗證明其在跨區域零樣本情境下保持高統計與物理有效性,為缺乏軌跡資料的模擬提供新途徑。
深度分析
隨著大型語言模型在 RTL 產生上的應用增長,功能正確與硬體效率常難兩全。ChipSeek 以層級獎勵結合 EDA 反饋,透過 CDPO 強化學習提升模型同時達到高正確率與優秀 PPA 表現,於標準基準創下新紀錄。
深度分析
隨著角色提示成為調整大型語言模型行為的常見手段,如何在不犧牲表現的前提下提升其穩定性成為挑戰。研究提出 PerMix-RLVR,透過在訓練時混合多樣角色並結合可驗證回饋的強化學習,有效緩解了 RLVR 在角色表現上的衝突。實驗結果顯示,該方法在 MATH500 上提升 21.2% 的角色穩定性分數,並在 PersonaGym 上提升 11.4% 的角色忠實度。
深度分析
強化學習在機器人領域因資料取得成本高而受限。WOMBET 透過來源任務的世界模型生成具低認知不確定性的離線軌跡,並在目標任務自適應抽樣混合線上離線資料。實驗證明此框架提升樣本效率,顯著優於現有基線。
深度分析
本研究回顧 2025 年工作坊,探討自主資安防禦的強化學習環境建置。提出將環境與真實系統介面模組化的框架,並提供實務最佳指引。此框架有望提升代理人在政府與關鍵基礎設施網路中的防禦效能。
eBPF
研究聚焦於使用者空間 ABR 演算法缺乏即時傳輸層資訊的問題,提出將網路監控與 ABR 選擇搬移至 Linux 核心的 eBandit 框架,使用 epsilon‑greedy 多武臂賭徒根據 TCP 指標即時獎勵。合成測試顯示 QoE 提升 7.2%,真實測試中平均 QoE 1.241,證明此方法在行動環境具顯著效益。
深度分析
研究針對空間推理與行動之間的差距提出 Spatial‑Gym 測試平台,透過 2D 網格迷宮的逐步決策任務評估模型。實驗比較一次性、步驟式與回溯三種設定下八個模型與人類、隨機、A* 基線的表現。結果顯示即使是最佳模型 GPT‑OSS 120B 只解出 16%,遠低於人類的 98%,且步驟式互動對弱模型有提升,但對強模型有負面影響。
超圖神經網路
最小不可滿足子集列舉因搜尋空間指數成長而具挑戰性。研究者利用超圖神經網路與強化學習,將限制建構為節點、已列舉的 MUS 為超邊,訓練代理人減少可滿足性檢查。實驗證明在相同檢查預算下,可列舉更多 MUS,提升效率。
深度分析
研究探討認知中的環境記憶角色,提出 artifacts 概念證明可縮減歷史資訊需求。實驗顯示觀測路徑降低記憶負擔,暗示未來可利用環境取代內部記憶。