深度分析
HomeFlow:結合 HomeEnv 模擬與 MCTS‑Flow 產生可驗證智慧家庭代理人訓練資料
隨著大型語言模型逐步進入實體控制,智慧家庭成為測試場域。研究提出 HomeFlow 以 HomeEnv 模擬環境結合 Blueprint 與 MCTS‑Flow 產生可驗證的多輪對話,並以步進式 RLVE 進行優化。實驗顯示模型成功率超過八成,領先現有商業模型。
深度分析
隨著大型語言模型逐步進入實體控制,智慧家庭成為測試場域。研究提出 HomeFlow 以 HomeEnv 模擬環境結合 Blueprint 與 MCTS‑Flow 產生可驗證的多輪對話,並以步進式 RLVE 進行優化。實驗顯示模型成功率超過八成,領先現有商業模型。
速報
自動化人工智慧研究長期被複雜的機器學習工程(MLE)任務困住,因為訓練評估成本高且成效難以歸因。論文提出 MARS(Modular Agent with Reflective Search),以三大支柱回應這些挑戰:透過成本受限的蒙地卡羅樹搜尋實作預算感知規劃,明確在效能與執行費用間取捨;
Transformer
SAT為關鍵且具挑戰性的問題。本文提出以transformer為基礎的神經符號後訓練框架,結合MCTS生成偏好資料與教師推理痕跡,採監督微調(SFT)再以直接偏好優化(DPO)精調。最終4B參數模型於100個競賽基準獲得pass@5=53,表現匹敵最佳符號啟發式。
深度分析
面對高解析且元件密集的截圖,GUI代理常被干擾而難以定位。DRS-GUI以訓練免疫的動態區域搜尋補強MLLM,透過UIPerceptor與聚焦、轉移、擴散三種感知動作,以及MCTS規劃與區域品質獎勵,逐步生成並選出最相關視窗。實驗在ScreenSpot-Pro上顯著提升定位表現。
深度分析
結合學習與搜尋是 AlphaZero 成功關鍵。本文提出 Inverse-RPO 方法,能把任意無先驗的 UCB 系統化轉為含先驗的 UCT,並以 UCB-V 推導出變異數感知的 UCT-V-P 與啟發式 PUCT-V。實驗顯示這兩種先驗式策略在多項基準上優於現行 PUCT,且可低成本部署。