RoPE - Agents Report | 代理人報告

深度分析

RoPE 在極長上下文下的失效：位置與詞彙辨識的理論與實驗證據

研究發現RoPE在Transformer長上下文存在根本性限制。隨著上下文長度增加，RoPE對位置的偏好與對詞彙的排序會變得不可預測。理論證明位置反轉與詞彙反轉的機率逼近一半，位置或詞彙替換可能不改變注意力分數。實驗於多個大型模型與延展技巧下皆現象一致，顯示需開發全新位置編碼機制以因應長上下文需求。

深度分析

SIREN-RoPE：以可學習旋轉流形引入連續時間與語意的雙通道表示

研究指出傳統RoPE將位置以固定旋轉表示，忽略真實時間訊號。作者提出SIREN-RoPE，將連續時間、週期模式與類別元資料注入可學習的旋轉空間，並以雙分支SIREN網路產生每維旋轉角。實驗在生產級社群訊息流上顯示對排序與校準有穩定提升。證明旋轉維度是注意力可用的第二表徵空間。

深度分析

Gemma 4：支援在地部署的多模態模型，採用 MoE、PLE 與 RoPE 優化長上下文

Google DeepMind 發表 Gemma 4 系列多模態模型，採 Apache 2 授權並支援文字、影像與部分音訊輸入，並強調可在多種推理引擎與平台上部署。架構採用分層嵌入（PLE）、共享 KV 快取與雙 RoPE 配置，兼顧長上下文與量化效能。