深度分析 張量與序列並行(TSP)詳解:透過並行折疊降低 GPU 記憶體並提升長序列吞吐 大型轉換器模型的訓練與推論本質上是記憶體管理問題。Zyphra 提出的張量與序列並行性(TSP)把張量並行(TP)與序列並行(SP)折疊到同一個裝置網格軸上,讓每顆 GPU 同時只保有 1/D 的權重與 1/D 的序列分片,雙向降低參數記憶體與激活值記憶體占用。