深度分析 同模態蒸餾 vs 監督微調:小樣本視覺語言模型 Qwen2.5‑VL‑7B‑Instruct 的暖啟動效能比較 研究在小樣本(≈1‑2k)視覺語言模型上,對比同模態教師的在政策蒸餾(OPD)與監督微調(SFT)兩種暖啟動,發現遺忘與效能取決於訓練配方;OPD在訓練初期保持較高熵並在內部驗證提升,但在RL階段與跨域MathVista測試上未展現顯著優勢,且三種暖啟動的內部最佳表現僅落在53‑54%的窄帶區間。