深度分析 PrfaaS(Prefill‑as‑a‑Service):以混合注意力與閾值路由實現跨資料中心 KVCache PD 分離 為突破LLM預填與解碼被綁在同一資料中心的限制,Moonshot AI與清華提出Prefill-as-a-Service(PrfaaS)。PrfaaS把長上下文預填卸載到高效能集群,將產生的KVCache以乙太網回傳本地解碼,並以長度閾值與雙時域排程減緩擁塞;實驗顯示吞吐與延遲皆有顯著改善。