深度分析
Qrita:在 GPU 上以高斯σ截斷與四元樞軸搜尋加速 Top-k/Top-p 選取
Top-k 與 Top-p 是大型語言模型採樣的核心截斷操作,但在大詞表上實作常因全詞表排序造成巨量計算與記憶體負擔。Qrita 將 RTop-K 的樞軸選取概念擴展到 Top-k 與 Top-p,採用兩大技術:一是基於高斯分布的 σ 截斷,先行縮減候選空間;
深度分析
Top-k 與 Top-p 是大型語言模型採樣的核心截斷操作,但在大詞表上實作常因全詞表排序造成巨量計算與記憶體負擔。Qrita 將 RTop-K 的樞軸選取概念擴展到 Top-k 與 Top-p,採用兩大技術:一是基於高斯分布的 σ 截斷,先行縮減候選空間;
深度分析
Overworld推出Waypoint-1.5,將即時生成互動世界帶到日常GPU。新模型分720p高畫質與360p輕量兩級,訓練資料擴增近百倍,提升環境連貫性與回應速度。此舉讓生成式世界從資料中心走向桌上型與筆電,擴大創作與模擬應用。為未來AI創作開啟新可能。
深度分析
近年企業為搶 GPU 容量而過度預購,反而造成大量閒置與成本膨脹。文章指出現況為企業 GPU 群組實際利用率僅約 5%,主因來自採購時的「害怕失去配額」(FOMO) 與容器化架構在執行流程中的資源不連續。
CPU
隨著 AI 工作負載多元化,傳統 CPU 已無法單獨應付。GPU 以大量平行核心加速訓練,TPU 針對張量運算優化,NPU 以低功耗支援邊緣推論,LPU 則透過全片上 SRAM 提升大型語言模型的即時效能。這些架構互補組成異質系統,提升 AI 效能與效率。