深度分析 Qrita:在 GPU 上以高斯σ截斷與四元樞軸搜尋加速 Top-k/Top-p 選取 Top-k 與 Top-p 是大型語言模型採樣的核心截斷操作,但在大詞表上實作常因全詞表排序造成巨量計算與記憶體負擔。Qrita 將 RTop-K 的樞軸選取概念擴展到 Top-k 與 Top-p,採用兩大技術:一是基於高斯分布的 σ 截斷,先行縮減候選空間;