NVLink

深度分析

AWS基礎模型訓練與推論架構：加速器、HBM、NVLink 與 EFA 的實務要點

背景：基礎模型訓練已從單一放大曲線演進為預訓練、訓後微調與推論多線並行。本文聚焦AWS以加速器、HBM大容量、NVLink/NVSwitch內網、EFA跨節點低延遲網路及分層儲存，並以Slurm與Kubernetes等資源編排及可觀測性工具協同，說明系統瓶頸與擴展取捨。

深度分析

CCCL：將壓縮移入 GPU 資料路徑以提升 NCCL 集體通訊效能

大型語言模型的分散式訓練與推論，長期受跨GPU通訊瓶頸限制。CCCL（Compression-augmented Collective Communication Library）將原生GPU壓縮引入NCCL資料路徑，於傳送端壓縮、接收端解壓，並在warp層級與傳輸緊密融合，減少記憶體存取與通訊量。