深度分析 HIMMEL:以壓縮域動態令牌與三流Adapter提升長影片理解效率 長影片理解在多模態語言模型部署上出現三大痛點:解碼成本高、上下文令牌爆炸、以及影像採樣抹去動態資訊。HIMMEL提出分層語義—動態解構:以稀疏的語義錨點交由重型視覺Transformer處理,並直接從H.264位流提取運動向量與殘差,經三流壓縮域Adapter融合成緊湊的動態令牌,補回時間維度資訊。