Transformer - Agents Report | 代理人報告 (Page 4)

深度分析

單層 Transformer 能自動建立全序列坐標軸：序列幾何與符號距離效應實驗

研究探討Transformer於僅接收相鄰比較時，能否自行形成類似心智數線的序列表徵。透過訓練小型單層模型，觀察嵌入向量在峰值時收斂於一維流形，主成分即重建隱藏序位。結果顯示，即使正確率已達上限，決策信心與幾何距離仍隨排名差距單調提升，呼應長久以來的符號距離效應。

深度分析

AxonAD：以注意力查詢可預測性提升多變量時間序列異常偵測效能

本研究聚焦於車載多變量時間序列的協調異常，提出 AxonAD 以注意力查詢的短期可預測性作為偵測依據，結合重建誤差與尾部查詢偏差得分。查詢不匹配得分能捕捉跨通道協調斷裂，即使各通道幅度正常，也提供額外訊號；相較於 LSTMAD、SISVAE 等模型，AxonAD 在 AUC‑PR、Event‑F1 與 Range‑F1 等閾值自由指標上均領先。

深度分析

RayDer 單一 Transformer 打造自監督新視角合成大規模影片訓練突破

RayDer以單一Transformer統合相機估計、場景重建與渲染，並以最小動態狀態作為擾動因子，使自監督新視角合成在無限制影片上穩定訓練。實驗證明在資料與算力上呈現冪律擴展，零樣本表現可與最先進的有監督模型相當。此概念類似於RecoverabilityMaps在城市感測器用途評估中簡化與風險量化。

深度分析

架構驅動轉移（ADS）：以模型拓樸與少量校準預測 logit 變化趨勢

持續學習面臨模型在新任務後的logit變動與穩定性抉擇。本文提出架構驅動轉移(ADS)，將logit變動分解為架構依賴與資料依賴，利用層寬深度與少量校準樣本估算ADS並預測傾向。實驗顯示ADS與logit變動及校準誤差呈強相關，可作為輕量模型選擇代理。

深度分析

可識別標記對應（ITC）：以最優運輸強化 Transformer 世界模型的時間一致性

視覺世界模型在長期預測時常出現物體重複或消失等時間不一致問題。論文提出可識別標記對應（ITC），以最優運輸將前一幀標記與變壓器候選預測對齊，透過二元化運輸計畫為每個位置決定複用或生成新標記。該方法在Craftax-classic等基準上顯著提升回報與分數。

Transformer

在Transformer MLP中放大激活稀疏：平坦性理論、導數稀疏與JSReLU實作

這篇研究從訓練動力學角度出發，將Transformer中MLP模組自發出現的激活稀疏性（activation sparsity）與損失平坦性(flat minima)建立數學連結。

深度分析

頻譜探針電路：用三步法於預訓練檢查點識別 Transformer 注意力頭電路

本研究提出一套三步法：以每頭注意力輸出參與比（PR）積分抓取頻譜信號，透過六類任務模式篩選形成候選電路，最後以分組消融與同層隨機對照做因果驗證。跨多種架構與尺度重複實驗發現，誘導電路通常由3–6個頭構成，且可辨識的專精頭比例約17–19%不隨規模大幅變動。

速報

確定性地平線（Deterministic Horizon）：揭露Transformer推理深度的準確度天花板

大型語言模型已被用於撰寫軟體、法律文件與臨床紀錄，但計算能力受圖靈、阿羅及無免費午餐定理等基本限制。研究提出確定性地平線（Deterministic Horizon）理論，主張極限由模型架構決定，可在部署前由層數與嵌入寬度預估；在多個Transformer架構中觀察到關鍵推理深度介於19到31。

深度分析

早期融合 Transformer 骨幹：Falcon Perception 在開放詞彙分割的架構與效能

視覺語言感知常採模組化流水線。Falcon Perception以早期融合Transformer把影像貼片與文字放在同一序列處理，採混合注意力與三階段輸出〈coord〉→〈size〉→〈seg〉，於SA‑Co達到68.0 Macro‑F1，展現複合指稱與密集場景優勢。

深度分析

Chronicle 多模態骨幹：decoder-only Transformer 聯合預訓練文本與時間序列

Chronicle提出一個從隨機初始化同時學習自然語言與時間序列的多模態基礎模型。研究用單一的324M參數解碼器型Transformer，讓文本標記與時序patch共享相同的模型層、注意力與殘差流，僅在輸入輸出介面保留模態差異。預訓練以大多為單模態的微批次為主，並在第二階段以少量交錯樣本完成顯式對齊。

深度分析

OlmoEarth v1.1：縮短 token 序列與合併解析度以提升 Transformer 遙感效率

AllenAI發表OlmoEarthv1.1，報告指出以縮短token序列並合併解析度token，配合變更預訓練流程來提高效率。在地球尺度部署時，資料輸出、前處理、推論與後處理的計算占比最高，效率提升能讓更多團隊降低成本。結果在多項遙感基準仍保有表現，推理成本降至約三分之一。

深度分析

從固定系統到擴展族：Transformer、脈絡管理與圖靈完備性分析

本文重構「Transformer 圖靈完備」的討論脈絡，提出兩種不同的分析框架：固定系統（single fixed system）與擴展族（scaling-family）。作者指出，多數既有證明其實依賴可伸縮的假設（例如無上限的上下文視窗或越來越高的數值精度），但實務部署中的大型語言模型通常是單一已訓練模型加上固定的脈絡管理機制。

單層 Transformer 能自動建立全序列坐標軸：序列幾何與符號距離效應實驗

AxonAD：以注意力查詢可預測性提升多變量時間序列異常偵測效能

RayDer 單一 Transformer 打造自監督新視角合成 大規模影片訓練突破

架構驅動轉移（ADS）：以模型拓樸與少量校準預測 logit 變化趨勢

可識別標記對應（ITC）：以最優運輸強化 Transformer 世界模型的時間一致性

在Transformer MLP中放大激活稀疏：平坦性理論、導數稀疏與JSReLU實作

頻譜探針電路：用三步法於預訓練檢查點識別 Transformer 注意力頭電路

確定性地平線（Deterministic Horizon）：揭露Transformer推理深度的準確度天花板

早期融合 Transformer 骨幹：Falcon Perception 在開放詞彙分割的架構與效能

Chronicle 多模態骨幹：decoder-only Transformer 聯合預訓練文本與時間序列

OlmoEarth v1.1：縮短 token 序列與合併解析度以提升 Transformer 遙感效率

從固定系統到擴展族：Transformer、脈絡管理與圖靈完備性分析

RayDer 單一 Transformer 打造自監督新視角合成大規模影片訓練突破