深度分析 Parcae:穩定迴圈式 Transformer 架構突破記憶體限制 研究背景:隨著推論成本攀升,學界探索在不擴大記憶體佔用下提升模型品質。核心技術:Parcae 以中間迴圈設計,將 Transformer 區塊重複 T 次,同時透過負對角矩陣約束確保系統穩定。主要結果:770M Parcae 的效能相當於 1.3B 傳統 Transformer,且在多項基準測試中均優於固定深度模型。