G-Zero - Agents Report | 代理人報告

深度分析

面對開放式、不可驗證任務，G-Zero 以 Hint-δ 建立內生偏好信號，Proposer 生成挑戰題與提示，Generator 以提示引導的回應為學習目標並透過 DPO 更新。實驗顯示在多種模型與評測上觀察到穩定性能提升，代表自我演化可在無外部裁判下前進。