InstrAct InstrAct:動作導向預訓練框架提升教學影片理解 隨著教學影片日益增多,細粒度動作辨識仍具挑戰。InstrAct 以資料過濾、硬負樣本與 Action Perceiver 抽取運動特徵,並加入 DTW 對齊與遮蔽動作建模輔助目標。實驗證明其在語意推理、程序邏輯與細粒度檢索上優於現有模型,提升影片動作理解。