深度分析 GradsSharding:在 AWS Lambda 上以梯度分片擴展無伺服器聯邦學習 聯邦學習面臨聚合伺服器記憶體瓶頸。本文提出梯度分片(GradsSharding),沿參數維度將梯度切成M段,每段由平行無伺服器函式平均並回寫S3,仍可還原FedAvg全量結果。實驗顯示在中大型模型上成本與延遲優於樹狀與共址方案,能突破單函式記憶體上限。