MCTS - Agents Report | 代理人報告

深度分析

會議紀錄篇幅龐大且對話結構複雜，傳統摘要常因資訊分散而失效。研究提出段落級蒙特卡羅樹搜尋(S3)，先分段產生多候選再以自我獎勵選出最佳組合，最後精煉去冗。實驗顯示，7B模型的S3效能媲美72B大模型，顯著提升摘要一致性與相關性。此技術有望推動會議AI助理更精準支援決策與紀錄管理。

深度分析

隨著大型語言模型逐步進入實體控制，智慧家庭成為測試場域。研究提出 HomeFlow 以 HomeEnv 模擬環境結合 Blueprint 與 MCTS‑Flow 產生可驗證的多輪對話，並以步進式 RLVE 進行優化。實驗顯示模型成功率超過八成，領先現有商業模型。

速報

自動化人工智慧研究長期被複雜的機器學習工程（MLE）任務困住，因為訓練評估成本高且成效難以歸因。論文提出 MARS（Modular Agent with Reflective Search），以三大支柱回應這些挑戰：透過成本受限的蒙地卡羅樹搜尋實作預算感知規劃，明確在效能與執行費用間取捨；

Transformer

SAT為關鍵且具挑戰性的問題。本文提出以transformer為基礎的神經符號後訓練框架，結合MCTS生成偏好資料與教師推理痕跡，採監督微調(SFT)再以直接偏好優化(DPO)精調。最終4B參數模型於100個競賽基準獲得pass@5=53，表現匹敵最佳符號啟發式。

深度分析

面對高解析且元件密集的截圖，GUI代理常被干擾而難以定位。DRS-GUI以訓練免疫的動態區域搜尋補強MLLM，透過UIPerceptor與聚焦、轉移、擴散三種感知動作，以及MCTS規劃與區域品質獎勵，逐步生成並選出最相關視窗。實驗在ScreenSpot-Pro上顯著提升定位表現。

深度分析

結合學習與搜尋是 AlphaZero 成功關鍵。本文提出 Inverse-RPO 方法，能把任意無先驗的 UCB 系統化轉為含先驗的 UCT，並以 UCB-V 推導出變異數感知的 UCT-V-P 與啟發式 PUCT-V。實驗顯示這兩種先驗式策略在多項基準上優於現行 PUCT，且可低成本部署。