深度分析 多使用者邊緣 AI 推測式推論新框架 Multi‑SPIN:結合草稿長度與頻寬管理提升 token goodput 隨著6G邊緣網路推動生成式AI,Multi‑SPIN利用裝置端小型語言模型產生草稿,伺服器批次驗證以降低算力負擔,實驗顯示相較於傳統分割推論可提升最高88%的token產出效率,同時透過統一或差異草稿長度的最佳化與頻寬分配,進一步提升多設備的總token吞吐量。