深度分析 CCCL:將壓縮移入 GPU 資料路徑以提升 NCCL 集體通訊效能 大型語言模型的分散式訓練與推論,長期受跨GPU通訊瓶頸限制。CCCL(Compression-augmented Collective Communication Library)將原生GPU壓縮引入NCCL資料路徑,於傳送端壓縮、接收端解壓,並在warp層級與傳輸緊密融合,減少記憶體存取與通訊量。