深度分析
STORM 空間感知 Token 縮減提升視覺 Mamba 效能與準確率
Mamba 在視覺長序列上效能佳,但傳統 token 縮減會破壞其二維結構,導致表現大幅下滑。STORM 以空間單元為單位進行結構化縮減,保留格子拓撲與鄰域一致性,無需額外訓練。實驗顯示在 VMamba 上 Top‑1 準確度提升最高 63.3%。此成果顯示空間感知縮減可成為視覺模型部署的關鍵技術。
深度分析
Mamba 在視覺長序列上效能佳,但傳統 token 縮減會破壞其二維結構,導致表現大幅下滑。STORM 以空間單元為單位進行結構化縮減,保留格子拓撲與鄰域一致性,無需額外訓練。實驗顯示在 VMamba 上 Top‑1 準確度提升最高 63.3%。此成果顯示空間感知縮減可成為視覺模型部署的關鍵技術。
速報
在機器學習中,從高維、非對數凹的未正規化分布抽樣是一大挑戰,尤其當勢能的精確梯度無法取得,只能以高變異的隨機梯度近似。
深度分析
傳統詞彙檢索雖高效但常受詞彙不匹配限制,研究提出STORM以獎勵導向束搜索在生成關鍵字時即評估BM25檢索分數,僅保留高回饋分支。實驗顯示0.6B~8B模型在TREC DL與BEIR上可媲美或超越大型LLM改寫,同時保持與純BM25相當的檢索速度,且在18種語言零樣本轉移中表現優於多語言密集檢索。