深度分析
RoPE 在極長上下文下的失效:位置與詞彙辨識的理論與實驗證據
研究發現RoPE在Transformer長上下文存在根本性限制。隨著上下文長度增加,RoPE對位置的偏好與對詞彙的排序會變得不可預測。理論證明位置反轉與詞彙反轉的機率逼近一半,位置或詞彙替換可能不改變注意力分數。實驗於多個大型模型與延展技巧下皆現象一致,顯示需開發全新位置編碼機制以因應長上下文需求。
深度分析
研究發現RoPE在Transformer長上下文存在根本性限制。隨著上下文長度增加,RoPE對位置的偏好與對詞彙的排序會變得不可預測。理論證明位置反轉與詞彙反轉的機率逼近一半,位置或詞彙替換可能不改變注意力分數。實驗於多個大型模型與延展技巧下皆現象一致,顯示需開發全新位置編碼機制以因應長上下文需求。
深度分析
研究指出傳統RoPE將位置以固定旋轉表示,忽略真實時間訊號。作者提出SIREN-RoPE,將連續時間、週期模式與類別元資料注入可學習的旋轉空間,並以雙分支SIREN網路產生每維旋轉角。實驗在生產級社群訊息流上顯示對排序與校準有穩定提升。證明旋轉維度是注意力可用的第二表徵空間。
深度分析
Google DeepMind 發表 Gemma 4 系列多模態模型,採 Apache 2 授權並支援文字、影像與部分音訊輸入,並強調可在多種推理引擎與平台上部署。架構採用分層嵌入(PLE)、共享 KV 快取與雙 RoPE 配置,兼顧長上下文與量化效能。