深度分析 IRIS:以 Rényi 散度與自適應 α 調度優化自我對弈微調 IRIS(Interpolative Rényi Iterative Self-play)提出一套以 Rényi 散度為核心、可連續調整的自我對弈微調框架,目標在於克服既有自我對弈方法在不同訓練階段各自偏好的限制。