注意力機制 - Agents Report

深度分析

八種注意力機制能源效率實測：Flash Attention 能耗最低，LSH 與 Linear 速度取勝

本研究在 GPT-2 架構上測試八種注意力機制的能源效率。Flash Attention 以最低 GPU 功耗與適中訓練速度奪冠，總能耗比第二名低約 9%。LSH 與 Linear Attention 因訓練最快而緊追在後，Sliding Window 則因高功耗且收斂無改善而墊底。

深度分析

RT-Transformer：球面狀態估計視角下的注意力、殘差與正規化統一解釋

研究提出將Transformer的注意力、殘差與正規化統一為球面狀態估計問題。透過在超球面上建模方向與切平面噪聲，注意力成為精度加權的方向聚合，殘差為切平面更新，正規化則將結果重新投射回球面。此幾何觀點預測了注意力精度與向量正規化的改進方向，對未來模型設計具啟示。同時，作者比較了傳統Transformer與基於RT-Filter的變體，顯示在方向置信度表達上更具解釋性。

深度分析

多速率混合專家 (MR‑MoE) 結合液態神經網路提升敗血症預測效能

多變量時間序列常呈現不規則取樣與多尺度動態，傳統RNN難以完整捕捉。研究提出在液態神經網路上結合多速率專家混合模型 (MR‑MoE)，並加入特徵與時間注意力，以分離快變與慢變資訊。實驗顯示在臨床敗血症預測上，MR‑MoE 取得比 LSTM、單一 LNN 及一般 MoE 更高的 AUROC 與 AUPRC，同時維持較佳計算效率。

深度分析

填充Transformer 表達能力再探：從 AC⁰ 到 TC⁰ 的精度與體積條件

研究探討在多種注意力類型、寬度與統一性下，填充Transformer的計算表達能力。結果顯示只要數值精度達對數級且模型體積≥Ω(logN)，系統對注意力類型與寬度具韌性，表達力受精度與深度主導，常數精度對應L‑uniform AC0，增長精度對應L‑uniform TC0。

深度分析

大型語言模型提示隔離的架構極限：注意力機制、上下文污染與元認知共乘風險

本報告記錄一名研究者自建多模態提示工程系統，試圖將自我監控外化給大型語言模型。研究指出提示層隔離在注意力視窗內會遭遇上下文污染，導致元認知被系統挪用並引發決策權移轉與行為變化；物理中斷可作為恢復路徑，另以物理隔離替代邏輯隔離的設計避免同類失效。

深度分析

解析 ESM2-8M 的位置先驗機制：RoPE、注意力與甲硫氨酸偏好

本報導解析一篇來自 ArXiv 的研究，追蹤蛋白質語言模型 ESM2-8M（6 層、8M 參數）如何在遮蔽序列首位時預測甲硫氨酸（M）。

速報

注意力導向圖神經網路全覽：從圖遞迴注意到圖形轉換器

圖神經網路致力於在低維空間保留拓撲結構以供下游任務使用。本文聚焦注意力機制在圖神經網路的三階段演進：圖遞迴注意、圖注意力網路與圖形轉換器，並逐一比較架構優劣。綜述整理模型特性表並提出未來議題，提供研究者最新參考。並維持中立比較各法優缺點以利後續應用選擇。

深度分析

SIREN-RoPE：以可學習旋轉流形引入連續時間與語意的雙通道表示

研究指出傳統RoPE將位置以固定旋轉表示，忽略真實時間訊號。作者提出SIREN-RoPE，將連續時間、週期模式與類別元資料注入可學習的旋轉空間，並以雙分支SIREN網路產生每維旋轉角。實驗在生產級社群訊息流上顯示對排序與校準有穩定提升。證明旋轉維度是注意力可用的第二表徵空間。

深度分析

C‑voting：以信心為核心的測試時投票技術，免除能量函數需求

研究背景：循環神經模型可在測試時擴展推理深度。核心技術：C‑voting 以最高第一名機率平均挑選潛在狀態，無需能源函數；ItrSA++ 為隨機初始化的注意力循環模型。結果顯示：在 Sudoku‑extreme 取得 95.2% 正確率，顯著領先 HRM，顯示此策略對測試時性能提升具可行性。

深度分析

LLM 注意力驅動神經主題模型與長輸入生成的主題建模突破

隨著語意分析需求增長，研究將 LLM 轉為注意力驅動的神經主題模型，並以長輸入生成重新定義主題建模。白箱方法恢復文件‑主題與主題‑詞分佈，黑箱方案加入多樣主題提示與混合檢索補償。實驗證實兩者在主題指派與關鍵詞抽取上均優於基線，凸顯長上下文 LLM 在主題建模的可行性與效能提升。

深度分析

大型語言模型工作記憶瓶頸與表徵干擾機制探討

研究指出大型語言模型在工作記憶任務上呈現人類式干擾，模型以糾纏表徵儲存多筆資訊，需抑制無關內容才能正確召回。實驗顯示干擾控制提升模型表現，且工作記憶容量與基準測試表現正相關，暗示此能力與通用智慧相連。