深度分析 Caracal:以多頭傅立葉(MHF)與頻域因果遮罩實現長序列 O(L log L) 全局混合 大型語言模型因注意力平方成本與位置編碼限制難以處理長序列。Caracal以O(LlogL)多頭傅立葉模組取代注意力,並在頻域實施因果遮罩以支援自回歸生成。實驗顯示其效能可與Transformer及SSM相當,同時提升計算效率,且完全使用標準函式庫,部署更為簡便。