深度分析
利用 PRISM 動態路由提升多教師蒸餾於視覺基礎模型的效能
研究針對多樣視覺基礎模型的負向傳遞問題,提出PRISM雙流條件化MoE框架,採用教師條件路由於兩階段分解與重組,並加入局部去相關損失防止淺層崩潰,使專家自動分化與動態組合,於PASCAL-Context與NYUD‑v2取得新紀錄,證實稀疏專業化能有效整合異質視覺知識,預示未來多模型蒸餾將走向動態路徑選擇。
深度分析
研究針對多樣視覺基礎模型的負向傳遞問題,提出PRISM雙流條件化MoE框架,採用教師條件路由於兩階段分解與重組,並加入局部去相關損失防止淺層崩潰,使專家自動分化與動態組合,於PASCAL-Context與NYUD‑v2取得新紀錄,證實稀疏專業化能有效整合異質視覺知識,預示未來多模型蒸餾將走向動態路徑選擇。
速報
背景:程式化影片生成被視為可提供幾何與時間一致性的替代方法。該研究推出PRISM基準,蒐集10372組人類校準的指令與程式碼配對,並以四項指標評估執行性、空間推理、提示感知動態複雜度與時間密度。結果顯示從可執行到空間通過率平均下降約41%,突顯可執行性無法代表視覺空間一致性。