Transformer - Agents Report | 代理人報告 (Page 3)

深度分析

LEAF‑X：以熵導向注意力提升 Transformer 語音辨識的可解釋性與時間定位精準度

隨著大型轉換器語音辨識模型精度提升，可解釋性仍不足。研究提出LEAF‑X，透過熵導向注意力加權與多層滾動，產生稀疏且時間定位精準的token‑to‑frame解釋，實驗顯示在Faithfulness、Locality與Stability上較既有方法提升30%以上。

深度分析

Adelic Operation‑Preserved Embeddings (AOE) 提升 Transformer 在代數組合任務的數字表示效能

近期大型語言模型在數學推理上表現亮眼，但仍受制於傳統數字編碼。研究提出訓練免除的Adelic操作保留嵌入(AOE)，同時捕捉實數值與p進制簽名，保留加乘結構。實驗顯示在代數組合基準上全面超越基線，首次在編織圖案任務達到100%正確率，為未來AI數學推理開闢新方向。

深度分析

RoVE：在 Transformer 中引入相對位置感的值向量注意力卷積

Rotary Position Embeddings（RoPE）讓注意力分數具相對位置感，但值通道保持位置盲點。研究提出RoVE，於值向量同步旋轉，將注意力轉為相對位置感的卷積。實驗在GPT‑2 124M與354M模型上提升少樣本學習、長上下文檢索與OOD perplexity，與YaRN結合更顯效益。

深度分析

音訊分離基礎模型注意力機制分析：因果探測與 LSAC 技術

隨著流匹配Transformer在音訊分離上表現優異，研究者透過因果干預在推論階段對SAMAudio進行正交探測，發現文字條件分為加法注入與交叉注意力兩條路徑；加法負責語意識別，交叉注意力塑造聲音細節。基於層級非同步收斂，提出無需再訓練的LSAC快取機制，可減少約25%的注意力計算，品質損失極小。

速報

大型時間序列預測模型的正規化策略對效能影響重大

大型時間序列預測模型近年成為處理多元訊號的熱門方法，通常採用因果自迴歸架構，逐筆預測未來值。然而，實務資料常出現非平穩性，正規化成為緩解此問題的關鍵手段。傳統正規化在因果設定下可能洩漏未來資訊，近期提出因果正規化與僅使用初始觀測統計的做法，但其實際效益尚未明朗。

深度分析

利用傅立葉模式提升線性注意力：Blurry Window Attention 方法解析

Transformer在長序列上因二次複雜度受限，研究提出BlurryWindowAttention以傅立葉模式存儲鍵值，透過Dirichlet核模糊插值重建歷史，實驗顯示其狀態效率顯著比滑動視窗提升8倍，且在記憶密集任務中表現與主流線性模型相當。

深度分析

神經符號結合 LTLf 與 DFA：提升離線 Transformer 強化學習的安全與規範遵循

離線強化學習在安全關鍵領域常缺乏即時修正機制，研究提出將LTLf公式編譯成確定性有限自動機，透過可微分滿足信號作為正則化，注入至TrajectoryTransformer與DecisionTransformer等自回歸模型。實驗在ColourBomb網格環境驗證，策略在保留競爭性回報的同時，大幅提升安全與達成目標的約束滿足率，展現神經符號結合於離線RL的可行性。

速報

Transformer 內部運作揭秘：研究人員成功提取 RASP 程式碼

研究人員探討 Transformer 模型在處理演算法任務時的運作機制。透過將訓練後的模型重新參數化為 RASP 程式語言並運用因果干預技術，研究團隊成功從模型中提取出簡潔且可解釋的子程式。實驗結果顯示，具備長度泛化能力的模型內部確實實作了簡單的 RASP 程式，此發現為理解模型內部邏輯提供了直接證據。

深度分析

Rasa 稀疏關係感知注意力：突破 Transformer 多跳推理瓶頸

Transformer 在多跳關係推理上受限於電路複雜度，需要 Ω(k) 層深度。研究提出 Rasa（Relation‑Aware Sparse Attention）加入稀疏鄰接遮罩與關係類型偏置，將注意力搜尋空間從 2^{n^2} 縮減至 2^{m}。在 MetaQA 3‑跳問題上達到 97.7% 正確率，較 EmbedKGQA 提升近 3 個百分點。

深度分析

探討 Transformer 中堆疊向量的因果角色：Dyck‑1 與 Shuffle‑k 實驗全解

本研究以形式語言 Dyck-1 與 Shuffle‑k 為測試平台，利用線性探測器從 Transformer 隱層中抽取堆疊深度資訊，並在推論階段剔除該方向。實驗發現序列正確率幾近歸零，顯示堆疊表示對模型預測具因果必要性。相較於僅做相關性探測的傳統方法，此因果驗證提供更堅實的解釋依據，暗示未來在模型安全與可解釋性設計上可能成為關鍵技術。

速報

Cosmos 3：全方位多模態世界模型突破，統合語言、影像與行動

Cosmos 3 為 NVIDIA 推出的全方位多模態世界模型，採用混合 Transformer 同時處理語言、影像、影片、音訊與行動序列。模型統合視覺語言、影片生成、世界模擬與行動決策功能，於多項任務創下新紀錄，成為實體 AI 的通用骨幹，且已以開源方式釋出。

深度分析

Zamba2‑VL：混合狀態空間與 Transformer 架構在視覺語言任務的效能突破

隨著多模態模型成為視覺語言介面的核心，Zamba2‑VL 以混合 Mamba2 與少量 Transformer 區塊構成，結合線性時間預填與固定大小狀態，於 1.2B、2.7B、7B 參數規模上，效能與 Molmo2、Qwen3‑VL 等同階模型相當，且在推論速度上快上數十倍。