tensor-sequence-parallelism - Agents Report

深度分析

大型轉換器模型的訓練與推論本質上是記憶體管理問題。Zyphra 提出的張量與序列並行性（TSP）把張量並行（TP）與序列並行（SP）折疊到同一個裝置網格軸上，讓每顆 GPU 同時只保有 1/D 的權重與 1/D 的序列分片，雙向降低參數記憶體與激活值記憶體占用。