深度分析 Hint-δ 指標與 DPO/GRPO 協作:G-Zero 在開放式任務的自我演化 面對開放式、不可驗證任務,G-Zero 以 Hint-δ 建立內生偏好信號,Proposer 生成挑戰題與提示,Generator 以提示引導的回應為學習目標並透過 DPO 更新。實驗顯示在多種模型與評測上觀察到穩定性能提升,代表自我演化可在無外部裁判下前進。