深度分析
Chronicle 多模態骨幹:decoder-only Transformer 聯合預訓練文本與時間序列
Chronicle提出一個從隨機初始化同時學習自然語言與時間序列的多模態基礎模型。研究用單一的324M參數解碼器型Transformer,讓文本標記與時序patch共享相同的模型層、注意力與殘差流,僅在輸入輸出介面保留模態差異。預訓練以大多為單模態的微批次為主,並在第二階段以少量交錯樣本完成顯式對齊。
深度分析
Chronicle提出一個從隨機初始化同時學習自然語言與時間序列的多模態基礎模型。研究用單一的324M參數解碼器型Transformer,讓文本標記與時序patch共享相同的模型層、注意力與殘差流,僅在輸入輸出介面保留模態差異。預訓練以大多為單模態的微批次為主,並在第二階段以少量交錯樣本完成顯式對齊。
深度分析
AllenAI發表OlmoEarthv1.1,報告指出以縮短token序列並合併解析度token,配合變更預訓練流程來提高效率。在地球尺度部署時,資料輸出、前處理、推論與後處理的計算占比最高,效率提升能讓更多團隊降低成本。結果在多項遙感基準仍保有表現,推理成本降至約三分之一。
深度分析
本文重構「Transformer 圖靈完備」的討論脈絡,提出兩種不同的分析框架:固定系統(single fixed system)與擴展族(scaling-family)。作者指出,多數既有證明其實依賴可伸縮的假設(例如無上限的上下文視窗或越來越高的數值精度),但實務部署中的大型語言模型通常是單一已訓練模型加上固定的脈絡管理機制。
Transformer
SAT為關鍵且具挑戰性的問題。本文提出以transformer為基礎的神經符號後訓練框架,結合MCTS生成偏好資料與教師推理痕跡,採監督微調(SFT)再以直接偏好優化(DPO)精調。最終4B參數模型於100個競賽基準獲得pass@5=53,表現匹敵最佳符號啟發式。
深度分析
超圖能表徵超出二元關係的高階互動,但現有方法多仰賴已觀察到的超邊傳遞訊息,無法辨識子集缺席所帶來的組成性差異。
深度分析
研究探討深度學習與非平衡化學中觀察到的相變現象,提出「驅動資訊系統」的雙場框架,將熵產生率與資訊準勢ΦI作為關鍵場。作者辨識兩個次序參數:對抗性崩解閾值與自參照耦合閾值,指出它們聯同表示複雜度構成普適類別,並提出三項可被檢驗的實驗預測。涵蓋從化學前生物選擇到 transformer 參數空間的案例比較,並指出此視角能區分單場理論的可行性。
深度分析
研究發現RoPE在Transformer長上下文存在根本性限制。隨著上下文長度增加,RoPE對位置的偏好與對詞彙的排序會變得不可預測。理論證明位置反轉與詞彙反轉的機率逼近一半,位置或詞彙替換可能不改變注意力分數。實驗於多個大型模型與延展技巧下皆現象一致,顯示需開發全新位置編碼機制以因應長上下文需求。
深度分析
一項研究提出以「融合—裂變」向量群體動力學模型,可在對話歷程中以可估算的基底向量預測 AI 何時偏離可取行為。方法把交談向量與「可取/不可取」兩類基底做群體競爭分析,跨模型、跨規模驗證準確。結果顯示此公式能提供實時預警,補強既有安全機制。可移植於多種ChatGPT類架構與應用場景。
深度分析
研究探討大型語言模型是否在生成文本時進行隱性規劃。研究用平均激活差向量介入中間激活,改變押韻與問答的最終詞生成;實驗以押韻詩與問答為例。結果指出自1B參數模型起顯著可觀察到規劃跡象,且可透過激活操控改變生成傾向,對模型控制與安全具指標性意義。
深度分析
本文驗證標準softmax-attentionTransformer可在前向傳遞中近似解高斯核kernelridgeregression;關鍵在於將softmax視為行歸一化的核矩陣運算,並以ReLUMLP處理token層的標量更新;理論與實驗皆顯示其行為與預條件Richardson迭代相符,並提供深度與寬度的誤差刻畫。
深度分析
研究提出首個針對GIMPLE與LLVMIR互譯的LLM模型IRIS‑14B,透過14億參數學習映射,較既有大型模型提升最高44%正確率,顯示資料驅動翻譯有望成為編譯器跨工具鏈新方案。此技術可減少手工規則維護成本,促進GCC與LLVM生態系統互補,並為未來神經符號混合編譯器提供可擴展的互通層。
深度分析
Mask2Cause以逆向變數嵌入與鄰接限制遮罩注意力在單次前向傳播中直接學習因果圖,支援均值與變異度因果,於多項基準測試中達到最高AUROC,且可將預測模型參數削減逾七成,顯示其在高維時間序列因果探索與模型壓縮上的優勢。與CUTS+、CausalFormer方法相比,Mask2Cause省去訓練成本。