策略熵 - Agents Report | 代理人報告

深度分析

研究在小樣本（≈1‑2k）視覺語言模型上，對比同模態教師的在政策蒸餾(OPD)與監督微調(SFT)兩種暖啟動，發現遺忘與效能取決於訓練配方；OPD在訓練初期保持較高熵並在內部驗證提升，但在RL階段與跨域MathVista測試上未展現顯著優勢，且三種暖啟動的內部最佳表現僅落在53‑54%的窄帶區間。