深度分析 CoMeT:雙層記憶與壓縮/讀出 token 以常數記憶擴展長序列 Transformer 面對 Transformer 在長序列上記憶與計算的根本瓶頸,CoMeT(Collaborative Memory Transformer)提出一個可插拔的雙層記憶模組,結合有門控的全局記憶與先入先出的暫存記憶,並以塊級處理與層級流水平行化降低訓練成本。