深度分析 Ulysses 序列平行化:突破百萬標記長上下文的訓練瓶頸 隨著模型需處理長序列,Ulysses 序列平行化透過把注意力頭分散到多卡並使用 all‑to‑all 通訊,解決了二次方記憶體瓶頸。實驗在 4 張 H100 上將序列長度提升至 96K,記憶體降低 3.3 倍,吞吐量提升 3.7 倍,為長上下文 AI 訓練開闢新可能。