深度分析 PVM 架構詳解:於 Qwen3‑VL 上以獨立正規化維持長序列視覺一致性 大型視覺語言模型在長序列生成時面臨視覺訊號稀釋,研究提出Persistent Visual Memory(PVM),以平行於FFN的檢索分支和獨立注意力正規化直接回取影像嵌入以維持長期視覺感知,實驗在Qwen3‑VL 4B與8B上展現整體準確度提升並抗長序列導致的衰退。