自我演化 - Agents Report

速報

研究提出 INFUSER，一種結合生成器與求解器的迭代共訓練機制，讓預訓練語言模型在僅需最小外部監督下自行提升推理表現。生成器從自動收集的非結構化文件中草擬問題與參考答案，求解器則以標準正確性獎勵訓練，生成器則根據能否提升求解器的影響分數獲得獎勵。

深度分析

在寶可夢集換式卡牌遊戲場景下，PTCG‑Bench以完整對局評估LLM代理的策略、長期經驗累積與介面影響。該基準結合不完全資訊推理、長期規劃與文字數值混合推理。實驗顯示代理可達顯著遊戲表現，但自我演化未能穩定提升，且受介面設計左右。值得進一步研究

速報

大型語言模型代理系統在生命週期與版本管理上仍有不足。AGP透過資源基底層RSPL把prompt、代理與工具當作具狀態、生命週期與版本化介面的註冊資源，SEPL建立提案—評估—提交的閉環，並保留可稽核的血緣與回滾機制。實作的AGS在多項長期規劃與跨工具基準測試中展現改善。

深度分析

面對開放式、不可驗證任務，G-Zero 以 Hint-δ 建立內生偏好信號，Proposer 生成挑戰題與提示，Generator 以提示引導的回應為學習目標並透過 DPO 更新。實驗顯示在多種模型與評測上觀察到穩定性能提升，代表自我演化可在無外部裁判下前進。