深度分析 AWS基礎模型訓練與推論架構:加速器、HBM、NVLink 與 EFA 的實務要點 背景:基礎模型訓練已從單一放大曲線演進為預訓練、訓後微調與推論多線並行。本文聚焦AWS以加速器、HBM大容量、NVLink/NVSwitch內網、EFA跨節點低延遲網路及分層儲存,並以Slurm與Kubernetes等資源編排及可觀測性工具協同,說明系統瓶頸與擴展取捨。